Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Bu araştırmacılar, AI ‘Akıl Yürütme’ modellerini karşılaştırma yapmak için NPR Sunday Bulmaca Soruları kullandı
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Bu araştırmacılar, AI ‘Akıl Yürütme’ modellerini karşılaştırma yapmak için NPR Sunday Bulmaca Soruları kullandı

Liste

Bu araştırmacılar, AI ‘Akıl Yürütme’ modellerini karşılaştırma yapmak için NPR Sunday Bulmaca Soruları kullandı

teknomers
Son güncelleme: 6 Şubat 2025 12:51
teknomers
Paylaş
Paylaş


Her Pazar, NPR sunucusu New York Times’ın bulmaca gurusu Will Shortz, Sunday Bulmacası adlı uzun süredir devam eden bir segmentte binlerce dinleyiciyi test ediyor. Olmadan çözülebilecek şekilde yazılırken fazla Çok öngörü, Brainteasers vasıflı yarışmacılar için bile zordur.

Bu yüzden bazı uzmanlar AI’nın problem çözme yeteneklerinin sınırlarını test etmenin umut verici bir yolu olduğunu düşünüyor.

Bir Yeni çalışmaWellesley College, Oberlin Koleji, Northeastern Üniversitesi Austin’deki Texas Üniversitesi ve başlangıç ​​imlecinden gelen bir araştırmacı ekibi, Pazar Bulmaca bölümlerinden bilmeceler kullanarak bir AI ölçütü oluşturdu. Ekip, testlerinin, akıl yürütme modelleri-Openai’nin O1’i-diğerlerinin yanı sıra bazen “vazgeçtiğini” ve doğru olmadığını bildikleri cevaplar verdiği gibi şaşırtıcı bilgiler ortaya çıkardığını söylüyor.

Northeastern’de bir bilgisayar bilimi lisans öğrencisi ve çalışmanın ortak yazarlarından biri olan Arjun Guha, TechCrunch’a verdiği demeçte, “İnsanların sadece genel bilgi ile anlayabileceği sorunlarla bir ölçüt geliştirmek istedik” dedi.

Yapay zeka endüstrisi şu anda biraz kıyaslama konusunda. Ortalama bir kullanıcı ile ilgili olmayan doktora düzeyinde matematik ve bilim sorularında yetkinlik gibi AI modelleri problarını değerlendirmek için yaygın olarak kullanılan testlerin çoğu. Bu arada, birçok ölçüt – hatta Nispeten yakın zamanda piyasaya sürülen kriterler – Doygunluk noktasına hızla yaklaşıyor.

Sunday bulmacası gibi bir halka açık radyo sınav oyununun avantajları, ezoterik bilgi için test etmemesi ve zorlukların, modellerin bunları çözmek için “rote belleğine” çekilemeyeceği şekilde ifade ediliyor.

Guha, “Bu sorunları zorlaştıran şey, bunu çözene kadar bir sorun üzerinde anlamlı bir ilerleme kaydetmenin gerçekten zor olması – o zaman her şey bir kerede birlikte tıklıyor” dedi. “Bu, içgörü ve bir eleme süreci kombinasyonu gerektirir.”

Elbette hiçbir kıyaslama mükemmel değildir. Pazar bulmacası ABD merkezli ve sadece İngilizce. Ve sınavlar halka açık olduğundan, Guha bunun kanıtını görmediğini söylemesine rağmen, modellerin üzerinde eğitilmiş ve bir anlamda “hile yapabilmesi” mümkündür.

“Her hafta yeni sorular yayınlanıyor ve en son soruların gerçekten görülmemesini bekleyebiliriz” diye ekledi. “Benchmark’ı taze tutmayı ve model performansının zaman içinde nasıl değiştiğini izlemeyi planlıyoruz.”

Yaklaşık 600 Pazar bulmaca bilmecesinden oluşan araştırmacıların karşılaştırmasında, O1 ve Deepseek’in R1 gibi akıl yürütme modelleri geri kalanından daha iyi performans gösteriyor. Akıl yürütme modelleri, sonuç vermeden önce kendilerini iyice kontrol eder, bu da normalde AI modellerini gezen bazı tuzaklardan kaçınmalarına yardımcı olur. Değişiklik, akıl yürütme modellerinin çözümlere ulaşması biraz daha uzun sürüyor-tipik olarak saniye ila dakika daha uzun.

En az bir model olan Deepseek’in R1, bazı Pazar bulmaca soruları için yanlış olduğunu bildiği çözümler sunuyor. R1, “Vazgeçiyorum”, ardından görünüşte rastgele görünen yanlış bir cevap – bu insanın kesinlikle ilişki kurabileceği davranışları söyleyecek.

Modeller, sadece hemen geri çekmek için yanlış bir cevap vermek, daha iyi bir tane almaya çalışmak ve tekrar başarısız olmak gibi diğer tuhaf seçimler yapar. Ayrıca sonsuza dek “düşünürler” ve cevaplar için saçma açıklamalar verirler ya da hemen doğru bir cevaba ulaşırlar, ancak daha sonra belirgin bir nedenden dolayı alternatif cevapları düşünmeye devam ederler.

Guha, “Zor problemlerde, R1 kelimenin tam anlamıyla ‘hayal kırıklığına uğradığını’ söylüyor,” dedi. “Bir modelin bir insanın ne söyleyebileceğini nasıl taklit ettiğini görmek komikti. Akıl yürütmede ‘hayal kırıklığının’ model sonuçlarının kalitesini nasıl etkileyebileceği görülüyor. ”

NPR Kıyaslama
R1, Pazar Puzzle Mücadelesi setinde bir soru üzerinde “hayal kırıklığına uğradı”.Resim Kredileri:Guha ve ark.

Karşılaştırma üzerindeki mevcut en iyi performans gösteren model,%59 puanla O1, ardından yakın zamanda piyasaya sürülen O3-mini yüksek “akıl yürütme çabası” olarak ayarlanmıştır (%47). (R1%35 puan aldı.) Bir sonraki adım olarak, araştırmacılar testlerini bu modellerin geliştirilebileceği alanları belirlemeye yardımcı olacağını umdukları ek akıl yürütme modellerine genişletmeyi planlıyorlar.

NPR Kıyaslama
Ekibin ölçütlerinde test ettiği modellerin puanları.Resim Kredileri:Guha ve ark.

Guha, “Akıl yürütmede iyi olmak için doktora yapmanız gerekmiyor, bu nedenle doktora düzeyinde bilgi gerektirmeyen akıl yürütme ölçütleri tasarlamak mümkün olmalı” dedi. “Daha geniş erişime sahip bir ölçüt, daha geniş bir araştırmacının sonuçları anlamasını ve analiz etmesini sağlar, bu da gelecekte daha iyi çözümlere yol açabilir. Dahası, en son teknoloji modeller herkesi etkileyen ortamlarda giderek daha fazla konuşlandırıldığından, herkesin bu modellerin neler olduğunu ve yapamayacağını sezmek zorunda olması gerektiğine inanıyoruz. ”



genel-24

Marvel, Vision Serisi İçin Star Trek’in Todd Stashwick’ini Işıklandırıyor
Material You widget’ları artık Google Haberler uygulamasında yayında
BTC ve ETH, Popüler Altcoinlerin Çoğunun Yanında Düştü, Kayıplar Kripto Tablolarını Kırmızıya Döndürdü
Samsung, OneUI 5.1.1 Beta’yı Yayınladı: Yenilikler Neler?
Gerard Piqué, Kadın Futbolu için Twitch Queens Ligi’ne Başlıyor
ETİKETLENDİ:AIAkılakıl yürütme modeliAraştırmaAraştırmacılarbulmacaiçinKalite TestiKarşılaştırmaKullandıModelleriniNepal RupisiNPRNPR Pazar BulmacasıPazar BulmacasıSorularıSundayyapmakyürütme
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Amazon, vokal asistanını üreten yapay zeka olarak arttırdı
Sonraki Makale OnePlus 13 Mini Sızıntı Komut dosyasını kamera beklentileri üzerine çevirir, Galaxy S25, piksel ve iPhone’ları alabilir mi?

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

WhatsApp NSO Grubu ile bağlantılı yeni casus yazılım saldırılarını tespit etti
Genel
Eero Pro 6E Router’lar 2026’nın En Düşük Fiyatında!
Liste
Watch Duty, Yangın Uygulamasına Sel Uyarıları Ekliyor!
Genel
Veri merkezi CPU talebi arttı; AI ajansları ve CPU-GPU oranı önem kazandı
Donanım
Total War Warhammer 40k’dan Heyecan Verici Gelişmeler
Oyun
Acil: Instagram Hesap Hackleri, Android Zero-Day ve GitHub Solucanı!
Siber Güvenlik
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?