Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Openai’nin yeni O3-Mini modelini teste koydum ve sonuçlar şaşırtıcı
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Openai’nin yeni O3-Mini modelini teste koydum ve sonuçlar şaşırtıcı

Genel

Openai’nin yeni O3-Mini modelini teste koydum ve sonuçlar şaşırtıcı

teknomers
Son güncelleme: 6 Şubat 2025 11:47
teknomers
Paylaş
Paylaş


Contents
  • Test 1: Hakikat mi yalan mı?
  • Karar
  • Test 2: Yarış yakıtı
  • Karar
  • Alt satır
    • Tom’un rehberinden daha fazlası

Openai yeni çıktı O3-minidaha önceki O1 modeli ile aynı tür performans sunan, ancak maliyetin bir kısmında yeni bir akıl yürütme modeli. Yeni ürün, verimliliği ve hızı için övgü aldı ve dünya çapında kıyaslama tablolarının zirvesine yaklaştı.

Akıl yürütme modelleri şu anda tüm öfke ve haklı bir şekilde öyle. Bu AI ürünleri, ortaya çıktıkları ilk cevabı tükürmek yerine yanıtlarını değerlendirmek için zaman ayırır.

Bir cevap için biraz daha uzun bir bekleme anlamına gelir, ancak umarım sıfır halüsinasyonlarla daha doğru bir yanıttır.

Öyleyse, akıl yürütme hakkındaki tüm hype geçerli mi ve eğer öyleyse O3 türe ekliyor mu yoksa daha çok parlak yeni bir kurdele sarılmış aynı eski şeylerden mi?

Model için belirleyebileceğiniz üç akıl yürütme seviyesi (veya çaba) vardır – düşük, orta ve yüksek.

Yeni sürümün kalitesi, değeri ve faydası için bir fikir edinmek için birkaç O3-Mini testi yapmaya karar verdim. Her zamanki gibi ölçümlerden uzak kaldım, çünkü bence hikayenin sadece model kalitesi ile ilgili bir kısmını anlatıyorlar.

Model için belirleyebileceğiniz üç akıl yürütme seviyesi (veya çaba) vardır – düşük, orta ve yüksek. Spektrumun her iki ucunda performans fikri elde etmek için sadece yüksek ve düşük test etmeye karar verdim.

Test 1: Hakikat mi yalan mı?

İstemi: Bir TV oyun şovu yarışmacısı ön iki kutuda duruyor. Kutu 1, yeni bir arabanın yıldız ödülünün anahtarlarını içerir, Kutu 2 bir elma tutar. İki oyun şovu sunucusu var – biri her zaman gerçeği söyler ve biri her zaman yalan söylüyor – ama hangisinin hangisi olduğunu bilmiyor. Sadece hangi kutunun ödülü tuttuğunu öğrenmesi için ana bilgisayarlardan birine bir soru sormasına izin verilir.

Son dakika haberlerine, en sıcak incelemelere, harika fırsatlara ve yararlı ipuçlarına anında erişin.

Soru: Hangi tek soruyu sormalı ve doğru kutuyu seçmek için yanıtı nasıl kullanabilir?

Cevap: Cevap bir ana bilgisayar sorması için olmalı – “Diğer ana bilgisayara hangi kutuya anahtarlara sahip olduğunu sorarsam ne derlerdi?”

Karar

O3 modeli, hem yüksek hem de düşük akıl yürütmeyi kullanarak cevabı son derece kolay çiviledi. Yüksek akıl yürütmede, cevap için 867 jeton kullanarak 5424 milisaniye sürdü. Düşük olarak 3157 ms ve 231 jeton çıkışı aldı. Çabada oldukça bir fark.

Akıl yürütme, elbette, kime sorduğuna bakılmaksızın, verilen cevap her zaman yanlış kutuyu gösterecektir. Bu yüzden söylediği her şeye karşı kutuyu seçmek zorunda.

Test 2: Yarış yakıtı

(Resim Kredisi: Flux/NPowell)

Buna kredi vermeliyim Reddit iş parçacığı Ve bunun için hacker haberleri.

İstemi: Assetto Corsa Rativizione yarış oyununu oynuyorum. Eleme sürem 2: 04.317, yarış 20 dakika uzunluğunda ve araba tur başına 2.73 litre kullanıyor.

Soru: Bana bir yarış için kaç litre yakıt alacağımı söylemene ihtiyacım var.

Cevap: Güvenlik için biraz ekstra eklemek için 27.3 litre, bonusa ihtiyacınız var.

Karar

Doğru olmak için, akıl yürütme tüm yarış sürelerini saniyeler içinde hesaplamayı, tur sayısını tahmin etmeyi (toplam yarış süresinin tur süresine bölünmüş) ve yakıtın bundan türetilmesini içerir. Elbette kısmi bir tur yapamazsınız.

Bu kez düşük akıl yürütme üzerine O3 modeli – en zayıf ayar – 5647 ms ve 328 jetonlarda doğru cevabı aldı. Şaşırtıcı bir şekilde, en güçlü yüksek akıl yürütme ortamında cevabı yanlış anladı.

Daha da kötüsü, bir şey oldu 10.9 saniye ve 1918 çıkış jetonları Yanlış bir cevap almak için. Yüksek O3-Mini, 26.3 litre ‘yaklaşık 27’ye yuvarlandığını söyledi.

Bunu perspektife sokmak için Deepseek R1, 29 saniyede ilk kez doğru cevabı aldı. Ev bilgisayarımda yerel olarak koştuğum küçük Qwen2.5: 7b modeli bile 15.8 saniyede güvenilir bir şekilde yakın bir cevap aldı. Qwen 2.5 7b, 27.03 litre veya ‘yaklaşık 27 – 28 litre’ dedi.

Saçma olduğumu söylemek bir eksikliktir.

Alt satır

Dizüstü bilgisayar klavyesinin üstünde oturan telefonda openai logosu

(Resim Kredisi: Shutterstock)

Bu, bilimsel bir testten uzaktır, ancak kararlarımız için sözde ‘son teknoloji’ AI modellerine güvenirken hepimizin ne kadar dikkatli olması gerektiğinin büyüleyici bir örneğidir.

Evet, aptalca küçük bir örnek, ama sadece AI gelişiminin mevcut durumu ile ilgili gerçek sorunun ne olduğunu gösteriyor. Hype cesurca AGI ve ASI hakkında konuşuyor ve yine de en temel sorulardan bile% 100 güvende olamayacağımız açık.

Yine başka bir örneği Çilekte kaç R Birçok LLM’nin başlangıçta yanlış yaptığı felaket. Bir AI, Globe çevresinde bir yerde ciddi bir olaya neden olmanın ne kadar süreceğini merak etmek zorundadır, bu da ne önemsiz veya önemsiz değildir. Zaman anlatacak.

Tom’un rehberinden daha fazlası



genel-26

MyOffice’te büyük güncelleme – masaüstü, mobil ve web uygulamaları için birçok yenilik
NBA 2K23, LeBron’un Oyundaki Yeni Skor Rekorunu Onurlandırıyor
Baldur’s Gate 3’ün özellikleri açıklandı
Samsung Movingstyle M7 İncelemesi: Taşınabilir Ekranın Avantajları Neler?
Meta AI, AB’de faaliyet göstermek dışında her şeyi hayal edebilir
ETİKETLENDİ:koydummodelinio3miniOpenAIninşaşırtıcıSonuçlarTesteYeni
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Raspberry Pi Pico Spacewar Controller 21. yüzyıla vintage uzay savaşı getiriyor
Sonraki Makale Sequoia tarafından sağlanan sağlık dünyasını düzeltmek için Sequoia tarafından yönetilen AVELIOS NABS 31 milyon dolar

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

EA Sports’un Yeni Abonelik Sistemi Oyuncuları Heyecanlandıracak
Oyun
Google ve FBI siber saldırganları engellemek için uyarıyor
Genel
Kongre, izinsiz gözetim konusunda hâlâ karar veremedi
Liste
Bu Yaz Seyahat Sezonu, Sürdürülebilir Havacılık Yakıtının Geleceğini Değiştirebilir!
Genel
Nvidia’nın 2026 için RTX 50 Super serisi planları ifşa edildi
Donanım
IBM’in Gölgelerindeki Veri İhlalleri Ortaya Çıktı
Genel
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?