- Dünyanın en zor ölçütünde en iyi puan alan AI tarafından elde edilen doğruluk, sadece iki haftada% 183 arttı
- CHATGPT O3-Mini artık kapasiteye bağlı olarak% 13’e kadar doğruluk kazanıyor
- Openai Deep Research,% 26,6 doğruluk sonucuyla rekabeti yok ediyor
Dünyanın en zor AI sınavı, insanlığın son sınavı, iki haftadan daha kısa bir süre önce piyasaya sürüldü ve Chatgpt O3-mini ve şimdi Openai’nin derin akıl yürütmesi liderlik tablosunun tepesinde büyük bir doğrulukta atlama gördük.
Dünyanın dört bir yanından uzmanlar tarafından oluşturulan AI Benchmark, insan tarafından bilinen en zor akıl yürütme sorunlarını ve soruları içeriyor – o kadar zor ki, daha önce insanlığın yukarıda bağlantılı makaledeki son sınavını yazdığımda, birini bile anlayamadım. Sorular, cevap versin.
Bu son makaleyi yazarken, dünya fenomeni Deepseek R1, sadece metinde değerlendirildiğinde (çok modlu değil)% 9,4 doğruluk puanı ile liderlik tablosunun tepesinde oturdu. Şimdi, bu haftanın başlarında başlatılan Openai’nin O3-mini, O3-mini ortamında% 10,5 doğruluk ve O3-Mini-yüksek ortamda% 13 doğruluk kazandı, bu daha akıllı ancak cevaplar oluşturmak daha uzun sürüyor.
Bununla birlikte, daha etkileyici olan, Openai’nin yeni AI Ajan Deep Research’in ölçütteki puanı, yeni araç% 26.6 puanla, 10 günden daha kısa bir sürede sonuç doğruluğunda% 183’lük bir artış. Şimdi, derin araştırmaların, diğer AI modellerinin yapmadığı gibi karşılaştırmaları biraz haksız hale getiren arama yeteneklerine sahip olduğunu belirtmek gerekir. Web’i arama yeteneği, bazı genel bilgiye dayalı sorular içerdiğinden, insanlığın son sınavı gibi bir test için yararlıdır.
Bununla birlikte, insanlığın son sınav sonuçlarını alan modellerin sonuçlarının doğruluğu sürekli olarak gelişiyor ve bir AI modelinin ölçütü tamamlamaya yaklaştığını görmek için ne kadar beklememiz gerektiğini merak ediyor. Gerçekçi olarak, AI yakında yaklaşamamalı, ama buna karşı bahse girmem.
Görünüşe göre en son Openai modeli birçok konuda çok başarılı. pic.twitter.com/x8ilmq1aqs3 Şubat 2025
Daha iyi, ama% 26,6’sı bana hiç satılmadı
Openai Deep Research, inanılmaz derecede etkileyici bir araçtır ve Openai’nin AI ajanını duyurduğunda gösterdiği örneklerden etkilendim. Derin araştırmalar, kişisel analistiniz olarak çalışabilir, yoğun araştırma yapmak için zaman ayırabilir ve aksi takdirde insanların tamamlanması saatlerce ve saatler alacak raporlar ve cevaplar bulabilir.
İnsanlığın son sınavında% 26,6’lık bir puan ciddi etkileyici olsa da, özellikle kıyaslamanın skor tablosunun sadece birkaç hafta içinde ne kadar ilerlediği göz önüne alındığında, hala mutlak açıdan düşük bir puan – hiç kimse bir şeyle bir testten geçtiğini iddia etmeyecek Gerçek dünyada% 50’den az.
İnsanlığın son sınavı mükemmel bir ölçüttür ve AI modelleri geliştikçe paha biçilmez olacak ve ne kadar ilerlediklerini ölçmemizi sağlayan bir ölçüttür. Bir AI’nın% 50 işaretini atladığını görmek için ne kadar beklememiz gerekecek? Ve bunu ilk yapan model hangi model olacak?


