Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Bu araştırmacılar, AI ‘Akıl Yürütme’ modellerini karşılaştırma yapmak için NPR Sunday Bulmaca Soruları kullandı
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Bu araştırmacılar, AI ‘Akıl Yürütme’ modellerini karşılaştırma yapmak için NPR Sunday Bulmaca Soruları kullandı

Liste

Bu araştırmacılar, AI ‘Akıl Yürütme’ modellerini karşılaştırma yapmak için NPR Sunday Bulmaca Soruları kullandı

teknomers
Son güncelleme: 17 Şubat 2025 02:05
teknomers
Paylaş
Paylaş


Her Pazar, NPR sunucusu New York Times’ın bulmaca gurusu Will Shortz, uzun süredir devam eden bir segmentte binlerce dinleyiciyi test ediyor. Pazar Bulmacası. Olmadan çözülebilecek şekilde yazılırken fazla Çok öngörü, Brainteasers vasıflı yarışmacılar için bile zordur.

Bu yüzden bazı uzmanlar AI’nın problem çözme yeteneklerinin sınırlarını test etmenin umut verici bir yolu olduğunu düşünüyor.

Bir Son çalışmaWellesley College, Oberlin Koleji, Austin, Northeastern Üniversitesi, Charles Üniversitesi, Teksas Üniversitesi, Teksas Üniversitesi’nden gelen bir araştırmacı ekibi ve Startup Cursor, Pazar Bulma Bulma bölümlerinden bilmeceler kullanarak bir AI ölçütü oluşturdu. Ekip, testlerinin bu akıl yürütme modelleri – Openai’nin O1’i – diğerlerinin yanı sıra – bazen “vazgeçtiğini” ve doğru olmadığını bildikleri cevapları sağladığını söyledi.

Northeastern’de bilgisayar bilimi öğretim üyesi ve çalışmanın ortak yazarlarından biri olan Arjun Guha, TechCrunch’a verdiği demeçte, “İnsanların sadece genel bilgi ile anlayabileceği sorunlarla bir ölçüt geliştirmek istedik” dedi.

Yapay zeka endüstrisi şu anda biraz kıyaslama konusunda. Ortalama bir kullanıcı ile ilgili olmayan doktora düzeyinde matematik ve bilim sorularında yetkinlik gibi AI modelleri problarını değerlendirmek için yaygın olarak kullanılan testlerin çoğu. Bu arada, birçok ölçüt – hatta Nispeten yakın zamanda piyasaya sürülen kriterler – Doygunluk noktasına hızla yaklaşıyor.

Sunday bulmacası gibi bir halka açık radyo sınav oyununun avantajları, ezoterik bilgi için test etmemesi ve zorlukların, modellerin bunları çözmek için “rote belleğine” çekilemeyeceği şekilde ifade ediliyor.

Guha, “Bu sorunları zorlaştıran şey, bunu çözene kadar bir sorun üzerinde anlamlı bir ilerleme kaydetmenin gerçekten zor olması – o zaman her şey bir kerede birlikte tıklıyor” dedi. “Bu, bir içgörü ve bir eleme süreci kombinasyonu gerektirir.”

Elbette hiçbir kıyaslama mükemmel değildir. Pazar bulmaca sadece ABD merkezli ve İngilizce. Ve sınavlar halka açık olduğu için, Guha bunun kanıt görmediğini söylese de, onlara eğitilmiş modellerin bir anlamda “hile yapabilmesi” mümkündür.

“Her hafta yeni sorular yayınlanıyor ve en son soruların gerçekten görülmemesini bekleyebiliriz” diye ekledi. “Benchmark’ı taze tutmayı ve model performansının zaman içinde nasıl değiştiğini izlemeyi planlıyoruz.”

Yaklaşık 600 Pazar bulmaca bilmecesinden oluşan araştırmacıların karşılaştırmasında, O1 ve Deepseek’in R1 gibi akıl yürütme modelleri geri kalanından daha iyi performans gösteriyor. Akıl yürütme modelleri, sonuç vermeden önce kendilerini iyice kontrol eder, bu da normalde AI modellerini gezen bazı tuzaklardan kaçınmalarına yardımcı olur. Değişiklik, akıl yürütme modellerinin çözümlere ulaşması biraz daha uzun sürüyor-tipik olarak saniye ila dakika daha uzun.

En az bir model olan Deepseek’in R1, bazı Pazar bulmaca soruları için yanlış olduğunu bildiği çözümler sunuyor. R1, “Vazgeçiyorum”, ardından görünüşte rastgele görünen yanlış bir cevap – bu insanın kesinlikle ilişki kurabileceği davranışları söyleyecek.

Modeller, sadece hemen geri çekmek için yanlış bir cevap vermek, daha iyi bir tane almaya çalışmak ve tekrar başarısız olmak gibi diğer tuhaf seçimler yapar. Ayrıca sonsuza dek “düşünürler” ve cevaplar için saçma açıklamalar verirler ya da hemen doğru bir cevaba ulaşırlar, ancak daha sonra belirgin bir nedenden dolayı alternatif cevapları düşünmeye devam ederler.

Guha, “Zor problemlerde, R1 kelimenin tam anlamıyla ‘hayal kırıklığına uğradığını’ söylüyor,” dedi. “Bir modelin bir insanın ne söyleyebileceğini nasıl taklit ettiğini görmek komikti. Akıl yürütmede ‘hayal kırıklığının’ model sonuçlarının kalitesini nasıl etkileyebileceği görülüyor. ”

NPR Kıyaslama
R1, Pazar Puzzle Mücadelesi setinde bir soru üzerinde “hayal kırıklığına uğradı”.Resim Kredileri:Guha ve ark.

Karşılaştırma üzerindeki mevcut en iyi performans gösteren model,%59 puanla O1, ardından yakın zamanda piyasaya sürülen O3-mini yüksek “akıl yürütme çabası” (%47). (R1%35 puan aldı.) Bir sonraki adım olarak, araştırmacılar testlerini bu modellerin geliştirilebileceği alanları belirlemeye yardımcı olacağını umdukları ek akıl yürütme modellerine genişletmeyi planlıyorlar.

NPR Kıyaslama
Ekibin ölçütlerinde test ettiği modellerin puanları.Resim Kredileri:Guha ve ark.

Guha, “Akıl yürütmede iyi olmak için doktora yapmanız gerekmiyor, bu nedenle doktora düzeyinde bilgi gerektirmeyen akıl yürütme ölçütleri tasarlamak mümkün olmalı” dedi. “Daha geniş erişime sahip bir ölçüt, daha geniş bir araştırmacının sonuçları anlamasını ve analiz etmesini sağlar, bu da gelecekte daha iyi çözümlere yol açabilir. Dahası, en son model modeller herkesi etkileyen ortamlarda giderek daha fazla konuşlandırıldığından, herkesin bu modellerin ne olduğunu ve yapamayacağını sezgisel yapabilmesi gerektiğine inanıyoruz. ”



genel-24

Deprem, otomobiller ve endüstriyel ekipman için çipler üreten Toshiba fabrikasını kapattığından çip sıkıntısı derinleşecek
Derin Uzay Keşfi için Tasarlanmış Plazma-Güçlü Roket
Yeni Samsung Galaxy S23 Ultra kamera örneği sızıntıları, etkileyici ve hayal kırıklığı yaratan özelliklerin bir karışımı
Kripto Madencileri GPU’ları, RTX 3080’leri 523 Dolara Atmaya Başladı
Teesside İngiltere’nin ilk büyük ölçekli lityum rafinerisine ev sahipliği yapıyor
ETİKETLENDİ:AIAkılakıl yürütme modeliAraştırmaAraştırmacılarbulmacaiçinKalite TestiKarşılaştırmaKullandıModelleriniNepal RupisiNPRSorularıSundayyapmakyaprak dökmeyenleryürütme
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Elon’un Sıkıcı Şirketi, bir sebepten dolayı Dubai’de 10 millik bir tünel inşa etmeyi planlıyor
Sonraki Makale Bir dizel motordan daha kötü değil: Toyota yeni nesil hidrojen otomobili duyurdu

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Laravel’de Carbon (MultiCarbon) ile Jalali ve Hijri Tarihleri
Yazılım
DDR4 bellek ve anakart üretimi yeniden başlıyor, DDR5’siz geleceğe hazırlık
Donanım
AI token maliyetleri büyük bir sorun haline geliyor, OpenAI çözümler arıyor
Donanım
Elden Ring: Tarnished Edition Switch 2 İçin Ön Sipariş Fırsatları
Oyun
LinkedIn üzerinden Batılıları tuzağa düşüren Çin casusları
Genel
AMD Helios MI455X AI platformu lanse edildi, Ethernet sınırlamaları var
Donanım
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?