
OpenAI, geçen ay akıl yürütme odaklı o3 serisi yapay zeka (AI) modellerini tanıttı. Canlı yayın sırasında şirket, modelin dahili testlere dayalı karşılaştırma puanlarını paylaştı. Paylaşılan puanların tümü etkileyiciydi ve o1’in halefinin geliştirilmiş yeteneklerini vurgularken, bir kıyaslama puanı öne çıktı. ARC-AGI kıyaslamasında büyük dil modeli (LLM) yüzde 85 puan alarak önceki en iyi puanı yüzde 30 farkla geride bıraktı. İlginç bir şekilde, bu puan aynı zamanda ortalama bir insanın testte aldığı puanla da aynı düzeydedir.
OpenAI, ARC-AGI Karşılaştırmasında Yüzde 85 Puan Aldı
Ancak o3’ün testte bu kadar yüksek puan alması onun zekasının ortalama bir insanınkine eşit olduğu anlamına mı geliyor? Yapay zeka modeli kamuya açıklanırsa ve onu test edebilirsek bu soruya cevap vermek daha kolay olacaktır. OpenAI modelin mimarisi, eğitim teknikleri veya veri kümeleri hakkında hiçbir şey açıklamadığından kesin olarak herhangi bir iddiada bulunmak zor.
AI firmasının akıl yürütme odaklı modelleri hakkında bildiğimiz ve OpenAI’nin yaklaşmakta olan LLM’sinden ne bekleyebileceğimizi anlamamıza yardımcı olabilecek bazı şeyler var. İlk olarak, şu ana kadar o serisi modellerin mimarisinde veya çerçevesinde büyük bir revizyon bulunmuyor ancak gelişmiş yetenekleri sergileyecek şekilde ince ayar yapıldı.
Örneğin geliştiriciler, o1 serisi yapay zeka modelleriyle birlikte test zamanı hesaplama adı verilen bir teknik kullandı. Bununla birlikte, yapay zeka modellerine bir soru üzerinde harcamaları için ek işlem süresi ve teorileri test etmek ve hataları düzeltmek için bir çalışma alanı verildi. Benzer şekilde GPT-4o modeli de GPT-4’ün ince ayarlı bir versiyonuydu.
Şirketin bu yılın sonlarında piyasaya sürülebilecek GPT-5 AI modeli üzerinde de çalıştığı söylentileri göz önüne alındığında, şirketin o3 modeliyle mimaride büyük değişiklikler yapması pek olası değil.
ARC-AGI (Soyut Akıl Yürütme Derlemi – Yapay Genel Zeka) kıyaslamasına gelince, çözülmesi için akıl yürütme ve mekansal anlama yetenekleri gerektiren bir dizi ızgara tabanlı örüntü tanıma sorusu içerir. Bu, akıl yürütmeye ve yeteneğe dayalı mantığa odaklanan yüksek kaliteli verilerden oluşan geniş bir veri kümesiyle yapılabilir.
Ancak iş bu kadar basit olsaydı eski yapay zeka modelleri de testte yüksek puan alırdı. Dikkat çekici bir şekilde önceki en yüksek puan, o3’ün yüzde 85’lik puanına karşılık yüzde 55’ti. Bu, geliştiricilerin modelin muhakeme yeteneklerini geliştirmek için yeni iyileştirme teknikleri ve algoritmalar eklediğini vurgulamaktadır. OpenAI teknik ayrıntıları resmi olarak açıklamadığı sürece bunun tam kapsamı belirtilemez.
Bununla birlikte, o3 AI modelinin AGI’ye veya insan düzeyinde zekaya ulaşması pek olası değildir. İlk olarak, eğer durum böyleyse, bu, şirketin Microsoft ile olan ve OpenAI modelleri AGI statüsüne ulaştığında sona ermesi planlanan ortaklığının sonu anlamına gelecektir. İkincisi, yapay zekanın vaftiz babası Geoffrey Hinton da dahil olmak üzere pek çok yapay zeka uzmanı, YGZ’ye ulaşmamıza birkaç yıl uzakta olduğumuzu defalarca vurguladı.
Son olarak, AGI o kadar büyük bir başarı ki, OpenAI bu dönüm noktasına ulaşırsa, bunun hakkında ince ipuçları paylaşmak yerine bunu açıkça insanlara bildirecektir. Burada çok daha muhtemel olan şey, o3 AI modelinin, PTI’da da vurgulandığı gibi, modelin modele dayalı muhakeme yeteneklerini geliştirmenin bir yolunu bulmuş olmasıdır (ya yeterli örnekleme verisi ekleyerek ya da eğitim yöntemlerini değiştirerek). rapor.
Ancak bu gelişme muhtemelen oldukça izoledir ve modelin genel zeka düzeyinde bir artış anlamına gelmez.

