OpenAI, gemilerin son gününde o3 ve o3-mini olarak adlandırılan yeni bir dizi sınır “akıl yürütme” modelinin ön izlemesini yaptı. eşik ilk olarak bu etkinlik sırasında yeni bir akıl yürütme modelinin geleceğini bildirdi.
Şirket bugün bu modelleri piyasaya sürmüyor (ve nihai sonuçların daha fazla eğitim sonrası değişebileceğini kabul ediyor). Ancak OpenAI, bu sistemleri halka açıklanmadan önce (henüz bir tarih belirlemedi) test etmek için araştırma topluluğundan başvuruları kabul ediyor. OpenAI Eylül ayında o1’i (kod adı Strawberry) başlattı ve kafa karışıklığını önlemek için o2’yi atlayarak doğrudan o3’e atlıyor (veya ticari marka ihtilafları) O2 adlı İngiliz telekom şirketiyle.
Dönem muhakeme Son zamanlarda yapay zeka endüstrisinde yaygın bir moda sözcük haline geldi, ancak temel olarak makinenin talimatları daha güçlü sonuçlar üretebilecek daha küçük görevlere ayırması anlamına geliyor. Bu modeller genellikle açıklama yapmadan sadece son bir cevap vermek yerine, çalışmanın bir cevaba nasıl ulaştığını gösterir.
Şirkete göre o3, genel olarak önceki performans rekorlarını geride bırakıyor. Kodlama testlerinde (SWE-Bench Verified olarak adlandırılan) selefini yüzde 22,8 oranında geride bırakıyor ve rekabetçi programlamada OpenAI’nin Baş Bilim Adamını geride bırakıyor. Model, neredeyse en zorlu matematik yarışmalarından birini (AIME 2024 adı verildi) kazandı, bir soruyu kaçırdı ve uzman düzeyindeki fen problemleri (GPQA Diamond adı verilen) kıyaslamasında yüzde 87,7 elde etti. Genellikle yapay zekayı zorlayan en zorlu matematik ve muhakeme zorluklarında o3, sorunların yüzde 25,2’sini çözdü (başka hiçbir model yüzde 2’yi geçmiyor).
Şirket ayrıca yapay zeka modelinin güvenlik kararlarını adım adım işlemesini gerektiren bilinçli uyum konusunda yeni araştırmayı da duyurdu. Dolayısıyla bu paradigma, yapay zeka modeline yalnızca evet/hayır kuralları vermek yerine, kullanıcının isteğinin OpenAI’nin güvenlik politikalarına uyup uymadığı konusunda aktif olarak akıl yürütmesini gerektirir. Şirket, bunu o1’de test ettiğinde güvenlik kurallarına uyma konusunda GPT-4 dahil önceki modellere göre çok daha iyi olduğunu iddia ediyor.

