OpenAI’nin “12 Gün Gemiler” etkinliğinin son günü, şirketin şimdiye kadarki en gelişmiş modeli olduğunu iddia ettiği yeni bir düşünce zinciri “akıl yürütme” modeli olan o3’ün tanıtılmasıyla geldi. Model henüz genel kullanıma sunulmamıştır ancak güvenlik araştırmacıları önizleme için kaydolun bugün başlıyor.
OpenAI ve diğerleri, akıl yürütme modellerinin, sohbet robotlarının sıklıkla yanlış yanıtlar üretmesi gibi zararlı bir sorunun çözümünde uzun bir yol kat edeceğini umuyor. Chatbotlar temelde insanlar gibi “düşünmezler” ve insan düşünce sürecinin en iyi simülakrını denemek ve yaratmak için farklı tekniklere ihtiyaç vardır.
Bir soru sorulduğunda akıl yürütme modelleri duraklar ve doğru bir yanıt üretmeye yardımcı olabilecek ilgili istemleri dikkate alır. Örneğin, o3 modeline “Habanerolar Kuzeybatı Pasifik’te yetiştirilebilir mi?” diye sorarsanız model, “habanerolar tipik olarak nerede büyür?” gibi bir sonuca varmak için araştıracağı bir dizi soruyu ortaya koyabilir. habanero yetiştirmek için ideal koşullar nelerdir” ve “Kuzeybatı Pasifik’te ne tür bir iklim var?” Chatbot’ları kullanan herkes, bazen doğru sonucu alana kadar ek takiplerle bir chatbot’u yönlendirmeniz gerektiğini bilir. Akıl yürütme modellerinin bu ek işi sizin için yapması gerekiyor.
o3, OpenAI’nin ilk düşünce zinciri akıl yürütme modeli olan o1’in devamı niteliğindedir. Temsilciler, İngiliz telekomünikasyon şirketine “saygıdan dolayı” “o2” adlandırma kuralını atlamaya karar verdiklerini söyledi, ancak bunun, ürünün daha gelişmiş görünmesini sağlamasının kesinlikle bir zararı olmadığını söyledi. Şirket, yeni modelin muhakeme süresini ayarlama yeteneğiyle birlikte geldiğini söylüyor. Kullanıcılar düşük, orta veya yüksek akıl yürütme süresini seçebilir; hesaplama ne kadar büyük olursa, o3’ün o kadar iyi performans göstermesi beklenir. OpenAI, potansiyel olarak zararlı yanıtlar üretmesini önlemek için yeni modeli araştırmacılarla “kırmızı ekip olarak” oluşturmak için zaman harcayacağını söylüyor (çünkü bu bir insan değil ve doğruyu yanlışı bilmiyor).
Muhakeme, üretken yapay zeka alanında günün en moda sözcüğüdür; sektördeki kişiler bunun, büyük dil modellerinin performansını artırmak için gerekli bir sonraki kilit noktası olduğuna inanırlar. Daha fazla bilgi işlem sonuçta eşdeğer performans artışı sağlamaz, bu nedenle yeni tekniklere ihtiyaç vardır. Google DeepMind kısa süre önce Gemini Deep Research adlı kendi akıl yürütme modelini açıkladı; bu modelin bulgularına ulaşmak için web üzerindeki birçok kaynağı analiz eden bir rapor oluşturması 5-10 dakika sürebilir.
OpenAI o3’e güveniyor ve etkileyici kıyaslamalar sunuyor; kodlama yeteneğini ölçen Codeforcing testinde o3’ün 2727 puan aldığını söylüyor. Bağlam açısından, 2400 puan bir mühendisi programcılar arasında 99. yüzdelik dilime yerleştirir. 2024 Amerika Davetli Matematik Sınavında yalnızca bir soru eksik olarak %96,7 puan alıyor. Modelin gerçek dünya testlerinde nasıl dayandığını görmemiz gerekecek ve doğruluğun gerekli olduğu önemli işler için yapay zeka modellerine çok fazla güvenmek genellikle iyi bir fikir değildir. Ancak iyimserler doğruluk sorununun çözüldüğünden eminler. Umarım öyledir, çünkü şu anki haliyle, Google’ın aramadaki AI Genel Bakışları hala sosyal medyada sıklıkla alay konusu olmaya devam ediyor.
OpenAI ve Perplexity gibi yapay zeka modeli şirketleri, dünyanın bilgisini toplayarak ve kullanıcıların tüm bunlardan anlam çıkarmasına yardımcı olarak bir sonraki Google olma yarışında. Artık gerçek zamanlı web sonuçlarına erişimle Google’ı daha doğrudan kopyalamayı amaçlayan arama ürünleri bile var.
Ancak bu oyuncuların hepsi her geçen gün birbirlerinin üzerinden atlıyor gibi görünüyor. Bu duygu, aralarından seçim yapabileceğiniz çok sayıda arama motorunun olduğu 90’ların sonlarını anımsatıyor; Google, Yahoo ve AltaVista, Ask Jeeves, sadece birkaçı, hepsi internetin verilerini süpürüp sunuyor. farklı kullanıcı deneyimi. Çoğu, diğerlerinden çok daha iyi olan biri ortaya çıktıktan sonra ortadan kayboldu: Google.
OpenAI şu anda yüz milyonlarca aylık aktif kullanıcı ve Apple ile olan ortaklığıyla açık bir şekilde güçlü bir liderliğe sahip, ancak Google son zamanlarda Gemini modellerindeki ilerlemelerden dolayı pek çok övgü aldı. Verge, şirketin yakında Gemini’yi entegre edeceğini bildirdi arama arayüzüne daha derinlemesine.

