Openai yeni çıktı O3-minidaha önceki O1 modeli ile aynı tür performans sunan, ancak maliyetin bir kısmında yeni bir akıl yürütme modeli. Yeni ürün, verimliliği ve hızı için övgü aldı ve dünya çapında kıyaslama tablolarının zirvesine yaklaştı.
Akıl yürütme modelleri şu anda tüm öfke ve haklı bir şekilde öyle. Bu AI ürünleri, ortaya çıktıkları ilk cevabı tükürmek yerine yanıtlarını değerlendirmek için zaman ayırır.
Bir cevap için biraz daha uzun bir bekleme anlamına gelir, ancak umarım sıfır halüsinasyonlarla daha doğru bir yanıttır.
Öyleyse, akıl yürütme hakkındaki tüm hype geçerli mi ve eğer öyleyse O3 türe ekliyor mu yoksa daha çok parlak yeni bir kurdele sarılmış aynı eski şeylerden mi?
Model için belirleyebileceğiniz üç akıl yürütme seviyesi (veya çaba) vardır – düşük, orta ve yüksek.
Yeni sürümün kalitesi, değeri ve faydası için bir fikir edinmek için birkaç O3-Mini testi yapmaya karar verdim. Her zamanki gibi ölçümlerden uzak kaldım, çünkü bence hikayenin sadece model kalitesi ile ilgili bir kısmını anlatıyorlar.
Model için belirleyebileceğiniz üç akıl yürütme seviyesi (veya çaba) vardır – düşük, orta ve yüksek. Spektrumun her iki ucunda performans fikri elde etmek için sadece yüksek ve düşük test etmeye karar verdim.
Test 1: Hakikat mi yalan mı?
İstemi: Bir TV oyun şovu yarışmacısı ön iki kutuda duruyor. Kutu 1, yeni bir arabanın yıldız ödülünün anahtarlarını içerir, Kutu 2 bir elma tutar. İki oyun şovu sunucusu var – biri her zaman gerçeği söyler ve biri her zaman yalan söylüyor – ama hangisinin hangisi olduğunu bilmiyor. Sadece hangi kutunun ödülü tuttuğunu öğrenmesi için ana bilgisayarlardan birine bir soru sormasına izin verilir.
Soru: Hangi tek soruyu sormalı ve doğru kutuyu seçmek için yanıtı nasıl kullanabilir?
Cevap: Cevap bir ana bilgisayar sorması için olmalı – “Diğer ana bilgisayara hangi kutuya anahtarlara sahip olduğunu sorarsam ne derlerdi?”
Karar
O3 modeli, hem yüksek hem de düşük akıl yürütmeyi kullanarak cevabı son derece kolay çiviledi. Yüksek akıl yürütmede, cevap için 867 jeton kullanarak 5424 milisaniye sürdü. Düşük olarak 3157 ms ve 231 jeton çıkışı aldı. Çabada oldukça bir fark.
Akıl yürütme, elbette, kime sorduğuna bakılmaksızın, verilen cevap her zaman yanlış kutuyu gösterecektir. Bu yüzden söylediği her şeye karşı kutuyu seçmek zorunda.
Test 2: Yarış yakıtı
Buna kredi vermeliyim Reddit iş parçacığı Ve bunun için hacker haberleri.
İstemi: Assetto Corsa Rativizione yarış oyununu oynuyorum. Eleme sürem 2: 04.317, yarış 20 dakika uzunluğunda ve araba tur başına 2.73 litre kullanıyor.
Soru: Bana bir yarış için kaç litre yakıt alacağımı söylemene ihtiyacım var.
Cevap: Güvenlik için biraz ekstra eklemek için 27.3 litre, bonusa ihtiyacınız var.
Karar
Doğru olmak için, akıl yürütme tüm yarış sürelerini saniyeler içinde hesaplamayı, tur sayısını tahmin etmeyi (toplam yarış süresinin tur süresine bölünmüş) ve yakıtın bundan türetilmesini içerir. Elbette kısmi bir tur yapamazsınız.
Bu kez düşük akıl yürütme üzerine O3 modeli – en zayıf ayar – 5647 ms ve 328 jetonlarda doğru cevabı aldı. Şaşırtıcı bir şekilde, en güçlü yüksek akıl yürütme ortamında cevabı yanlış anladı.
Daha da kötüsü, bir şey oldu 10.9 saniye ve 1918 çıkış jetonları Yanlış bir cevap almak için. Yüksek O3-Mini, 26.3 litre ‘yaklaşık 27’ye yuvarlandığını söyledi.
Bunu perspektife sokmak için Deepseek R1, 29 saniyede ilk kez doğru cevabı aldı. Ev bilgisayarımda yerel olarak koştuğum küçük Qwen2.5: 7b modeli bile 15.8 saniyede güvenilir bir şekilde yakın bir cevap aldı. Qwen 2.5 7b, 27.03 litre veya ‘yaklaşık 27 – 28 litre’ dedi.
Saçma olduğumu söylemek bir eksikliktir.
Alt satır

Bu, bilimsel bir testten uzaktır, ancak kararlarımız için sözde ‘son teknoloji’ AI modellerine güvenirken hepimizin ne kadar dikkatli olması gerektiğinin büyüleyici bir örneğidir.
Evet, aptalca küçük bir örnek, ama sadece AI gelişiminin mevcut durumu ile ilgili gerçek sorunun ne olduğunu gösteriyor. Hype cesurca AGI ve ASI hakkında konuşuyor ve yine de en temel sorulardan bile% 100 güvende olamayacağımız açık.
Yine başka bir örneği Çilekte kaç R Birçok LLM’nin başlangıçta yanlış yaptığı felaket. Bir AI, Globe çevresinde bir yerde ciddi bir olaya neden olmanın ne kadar süreceğini merak etmek zorundadır, bu da ne önemsiz veya önemsiz değildir. Zaman anlatacak.


