Bu araştırmacılar, AI 'Akıl Yürütme' modellerini karşılaştırma yapmak için NPR Sunday Bulmaca Soruları kullandı - Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film

Her Pazar, NPR sunucusu New York Times’ın bulmaca gurusu Will Shortz, Sunday Bulmacası adlı uzun süredir devam eden bir segmentte binlerce dinleyiciyi test ediyor. Olmadan çözülebilecek şekilde yazılırken fazla Çok öngörü, Brainteasers vasıflı yarışmacılar için bile zordur.

Bu yüzden bazı uzmanlar AI’nın problem çözme yeteneklerinin sınırlarını test etmenin umut verici bir yolu olduğunu düşünüyor.

Bir Yeni çalışmaWellesley College, Oberlin Koleji, Northeastern Üniversitesi Austin’deki Texas Üniversitesi ve başlangıç imlecinden gelen bir araştırmacı ekibi, Pazar Bulmaca bölümlerinden bilmeceler kullanarak bir AI ölçütü oluşturdu. Ekip, testlerinin, akıl yürütme modelleri-Openai’nin O1’i-diğerlerinin yanı sıra bazen “vazgeçtiğini” ve doğru olmadığını bildikleri cevaplar verdiği gibi şaşırtıcı bilgiler ortaya çıkardığını söylüyor.

Northeastern’de bir bilgisayar bilimi lisans öğrencisi ve çalışmanın ortak yazarlarından biri olan Arjun Guha, TechCrunch’a verdiği demeçte, “İnsanların sadece genel bilgi ile anlayabileceği sorunlarla bir ölçüt geliştirmek istedik” dedi.

Yapay zeka endüstrisi şu anda biraz kıyaslama konusunda. Ortalama bir kullanıcı ile ilgili olmayan doktora düzeyinde matematik ve bilim sorularında yetkinlik gibi AI modelleri problarını değerlendirmek için yaygın olarak kullanılan testlerin çoğu. Bu arada, birçok ölçüt – hatta Nispeten yakın zamanda piyasaya sürülen kriterler – Doygunluk noktasına hızla yaklaşıyor.

Sunday bulmacası gibi bir halka açık radyo sınav oyununun avantajları, ezoterik bilgi için test etmemesi ve zorlukların, modellerin bunları çözmek için “rote belleğine” çekilemeyeceği şekilde ifade ediliyor.

Guha, “Bu sorunları zorlaştıran şey, bunu çözene kadar bir sorun üzerinde anlamlı bir ilerleme kaydetmenin gerçekten zor olması – o zaman her şey bir kerede birlikte tıklıyor” dedi. “Bu, içgörü ve bir eleme süreci kombinasyonu gerektirir.”

Elbette hiçbir kıyaslama mükemmel değildir. Pazar bulmacası ABD merkezli ve sadece İngilizce. Ve sınavlar halka açık olduğundan, Guha bunun kanıtını görmediğini söylemesine rağmen, modellerin üzerinde eğitilmiş ve bir anlamda “hile yapabilmesi” mümkündür.

“Her hafta yeni sorular yayınlanıyor ve en son soruların gerçekten görülmemesini bekleyebiliriz” diye ekledi. “Benchmark’ı taze tutmayı ve model performansının zaman içinde nasıl değiştiğini izlemeyi planlıyoruz.”

Yaklaşık 600 Pazar bulmaca bilmecesinden oluşan araştırmacıların karşılaştırmasında, O1 ve Deepseek’in R1 gibi akıl yürütme modelleri geri kalanından daha iyi performans gösteriyor. Akıl yürütme modelleri, sonuç vermeden önce kendilerini iyice kontrol eder, bu da normalde AI modellerini gezen bazı tuzaklardan kaçınmalarına yardımcı olur. Değişiklik, akıl yürütme modellerinin çözümlere ulaşması biraz daha uzun sürüyor-tipik olarak saniye ila dakika daha uzun.

En az bir model olan Deepseek’in R1, bazı Pazar bulmaca soruları için yanlış olduğunu bildiği çözümler sunuyor. R1, “Vazgeçiyorum”, ardından görünüşte rastgele görünen yanlış bir cevap – bu insanın kesinlikle ilişki kurabileceği davranışları söyleyecek.

Modeller, sadece hemen geri çekmek için yanlış bir cevap vermek, daha iyi bir tane almaya çalışmak ve tekrar başarısız olmak gibi diğer tuhaf seçimler yapar. Ayrıca sonsuza dek “düşünürler” ve cevaplar için saçma açıklamalar verirler ya da hemen doğru bir cevaba ulaşırlar, ancak daha sonra belirgin bir nedenden dolayı alternatif cevapları düşünmeye devam ederler.

Guha, “Zor problemlerde, R1 kelimenin tam anlamıyla ‘hayal kırıklığına uğradığını’ söylüyor,” dedi. “Bir modelin bir insanın ne söyleyebileceğini nasıl taklit ettiğini görmek komikti. Akıl yürütmede ‘hayal kırıklığının’ model sonuçlarının kalitesini nasıl etkileyebileceği görülüyor. ”

NPR Kıyaslama — R1, Pazar Puzzle Mücadelesi setinde bir soru üzerinde “hayal kırıklığına uğradı”.Resim Kredileri:Guha ve ark.

Karşılaştırma üzerindeki mevcut en iyi performans gösteren model,%59 puanla O1, ardından yakın zamanda piyasaya sürülen O3-mini yüksek “akıl yürütme çabası” olarak ayarlanmıştır (%47). (R1%35 puan aldı.) Bir sonraki adım olarak, araştırmacılar testlerini bu modellerin geliştirilebileceği alanları belirlemeye yardımcı olacağını umdukları ek akıl yürütme modellerine genişletmeyi planlıyorlar.

Guha, “Akıl yürütmede iyi olmak için doktora yapmanız gerekmiyor, bu nedenle doktora düzeyinde bilgi gerektirmeyen akıl yürütme ölçütleri tasarlamak mümkün olmalı” dedi. “Daha geniş erişime sahip bir ölçüt, daha geniş bir araştırmacının sonuçları anlamasını ve analiz etmesini sağlar, bu da gelecekte daha iyi çözümlere yol açabilir. Dahası, en son teknoloji modeller herkesi etkileyen ortamlarda giderek daha fazla konuşlandırıldığından, herkesin bu modellerin neler olduğunu ve yapamayacağını sezmek zorunda olması gerektiğine inanıyoruz. ”

genel-24

Bu araştırmacılar, AI ‘Akıl Yürütme’ modellerini karşılaştırma yapmak için NPR Sunday Bulmaca Soruları kullandı

Sanal Medya

Son Eklenenler

Laravel Uygulamasının Güvenliğini Tek Komutla Denetleme (Terminal Gerektirmez)

Ben Affleck’in AI Film Yapım Girişimine Netflix’ten Dev Yatırım

Kieran Hebden’den (Four Tet) Tarafsız İsimler Üzerine Harika Bir Proje

Jensen Huang’ın Japonya ziyareti sonrası beklenen gelişmeler

Kritik NGINX Açığı: Çalışanları Çökertir ve Uzak Kod Yürütme İhtimali!

Laravel için İlk GitHub Actions İş Akışınızı Oluşturun

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer