Openai'nin derin araştırması, Chatgpt O3-Mini ve Deepseek'in ardından dünyanın en zor AI sınavı için kayıtları parçaladı - Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film

Dünyanın en zor ölçütünde en iyi puan alan AI tarafından elde edilen doğruluk, sadece iki haftada% 183 arttı
CHATGPT O3-Mini artık kapasiteye bağlı olarak% 13’e kadar doğruluk kazanıyor
Openai Deep Research,% 26,6 doğruluk sonucuyla rekabeti yok ediyor

Dünyanın en zor AI sınavı, insanlığın son sınavı, iki haftadan daha kısa bir süre önce piyasaya sürüldü ve Chatgpt O3-mini ve şimdi Openai’nin derin akıl yürütmesi liderlik tablosunun tepesinde büyük bir doğrulukta atlama gördük.

Dünyanın dört bir yanından uzmanlar tarafından oluşturulan AI Benchmark, insan tarafından bilinen en zor akıl yürütme sorunlarını ve soruları içeriyor – o kadar zor ki, daha önce insanlığın yukarıda bağlantılı makaledeki son sınavını yazdığımda, birini bile anlayamadım. Sorular, cevap versin.

Bu son makaleyi yazarken, dünya fenomeni Deepseek R1, sadece metinde değerlendirildiğinde (çok modlu değil)% 9,4 doğruluk puanı ile liderlik tablosunun tepesinde oturdu. Şimdi, bu haftanın başlarında başlatılan Openai’nin O3-mini, O3-mini ortamında% 10,5 doğruluk ve O3-Mini-yüksek ortamda% 13 doğruluk kazandı, bu daha akıllı ancak cevaplar oluşturmak daha uzun sürüyor.

Bununla birlikte, daha etkileyici olan, Openai’nin yeni AI Ajan Deep Research’in ölçütteki puanı, yeni araç% 26.6 puanla, 10 günden daha kısa bir sürede sonuç doğruluğunda% 183’lük bir artış. Şimdi, derin araştırmaların, diğer AI modellerinin yapmadığı gibi karşılaştırmaları biraz haksız hale getiren arama yeteneklerine sahip olduğunu belirtmek gerekir. Web’i arama yeteneği, bazı genel bilgiye dayalı sorular içerdiğinden, insanlığın son sınavı gibi bir test için yararlıdır.

Bununla birlikte, insanlığın son sınav sonuçlarını alan modellerin sonuçlarının doğruluğu sürekli olarak gelişiyor ve bir AI modelinin ölçütü tamamlamaya yaklaştığını görmek için ne kadar beklememiz gerektiğini merak ediyor. Gerçekçi olarak, AI yakında yaklaşamamalı, ama buna karşı bahse girmem.

Görünüşe göre en son Openai modeli birçok konuda çok başarılı. pic.twitter.com/x8ilmq1aqs3 Şubat 2025

Daha iyi, ama% 26,6’sı bana hiç satılmadı

Openai Deep Research, inanılmaz derecede etkileyici bir araçtır ve Openai’nin AI ajanını duyurduğunda gösterdiği örneklerden etkilendim. Derin araştırmalar, kişisel analistiniz olarak çalışabilir, yoğun araştırma yapmak için zaman ayırabilir ve aksi takdirde insanların tamamlanması saatlerce ve saatler alacak raporlar ve cevaplar bulabilir.

İnsanlığın son sınavında% 26,6’lık bir puan ciddi etkileyici olsa da, özellikle kıyaslamanın skor tablosunun sadece birkaç hafta içinde ne kadar ilerlediği göz önüne alındığında, hala mutlak açıdan düşük bir puan – hiç kimse bir şeyle bir testten geçtiğini iddia etmeyecek Gerçek dünyada% 50’den az.

İnsanlığın son sınavı mükemmel bir ölçüttür ve AI modelleri geliştikçe paha biçilmez olacak ve ne kadar ilerlediklerini ölçmemizi sağlayan bir ölçüttür. Bir AI’nın% 50 işaretini atladığını görmek için ne kadar beklememiz gerekecek? Ve bunu ilk yapan model hangi model olacak?

Ayrıca sevebilirsiniz

işletim-sistemi-1

Contents

Daha iyi, ama% 26,6’sı bana hiç satılmadı

Ayrıca sevebilirsiniz

Openai’nin derin araştırması, Chatgpt O3-Mini ve Deepseek’in ardından dünyanın en zor AI sınavı için kayıtları parçaladı

Daha iyi, ama% 26,6’sı bana hiç satılmadı

Ayrıca sevebilirsiniz

Sanal Medya

Son Eklenenler

Blizzard, World of Warcraft’ta Arkeolojiyi Heyecanla Yeniden Sunmayı Planlıyor

Samsung, yeni VESA DisplayHDR True Black 1400 dizüstü ekranlar sağlıyor.

Genç Koşucular Neden Bu Kadar Hızlanıyor? ‘Trackflation’ Olgusu

Acil: Otonom AI Ajanıyla Bağlantılı Hugging Face Verisi İfşa Edildi

Kritik Uyarı: Rus İstihbaratı, NATO ve Ukrayna’yı İzliyor!

StrictlyVC New York Şehri’nde Start-up Ekosistemini Kutluyor

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer