Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Openai’nin yeni O3-Mini modelini teste koydum ve sonuçlar şaşırtıcı
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Openai’nin yeni O3-Mini modelini teste koydum ve sonuçlar şaşırtıcı

Genel

Openai’nin yeni O3-Mini modelini teste koydum ve sonuçlar şaşırtıcı

teknomers
Son güncelleme: 6 Şubat 2025 11:47
teknomers
Paylaş
Paylaş


Contents
  • Test 1: Hakikat mi yalan mı?
  • Karar
  • Test 2: Yarış yakıtı
  • Karar
  • Alt satır
    • Tom’un rehberinden daha fazlası

Openai yeni çıktı O3-minidaha önceki O1 modeli ile aynı tür performans sunan, ancak maliyetin bir kısmında yeni bir akıl yürütme modeli. Yeni ürün, verimliliği ve hızı için övgü aldı ve dünya çapında kıyaslama tablolarının zirvesine yaklaştı.

Akıl yürütme modelleri şu anda tüm öfke ve haklı bir şekilde öyle. Bu AI ürünleri, ortaya çıktıkları ilk cevabı tükürmek yerine yanıtlarını değerlendirmek için zaman ayırır.

Bir cevap için biraz daha uzun bir bekleme anlamına gelir, ancak umarım sıfır halüsinasyonlarla daha doğru bir yanıttır.

Öyleyse, akıl yürütme hakkındaki tüm hype geçerli mi ve eğer öyleyse O3 türe ekliyor mu yoksa daha çok parlak yeni bir kurdele sarılmış aynı eski şeylerden mi?

Model için belirleyebileceğiniz üç akıl yürütme seviyesi (veya çaba) vardır – düşük, orta ve yüksek.

Yeni sürümün kalitesi, değeri ve faydası için bir fikir edinmek için birkaç O3-Mini testi yapmaya karar verdim. Her zamanki gibi ölçümlerden uzak kaldım, çünkü bence hikayenin sadece model kalitesi ile ilgili bir kısmını anlatıyorlar.

Model için belirleyebileceğiniz üç akıl yürütme seviyesi (veya çaba) vardır – düşük, orta ve yüksek. Spektrumun her iki ucunda performans fikri elde etmek için sadece yüksek ve düşük test etmeye karar verdim.

Test 1: Hakikat mi yalan mı?

İstemi: Bir TV oyun şovu yarışmacısı ön iki kutuda duruyor. Kutu 1, yeni bir arabanın yıldız ödülünün anahtarlarını içerir, Kutu 2 bir elma tutar. İki oyun şovu sunucusu var – biri her zaman gerçeği söyler ve biri her zaman yalan söylüyor – ama hangisinin hangisi olduğunu bilmiyor. Sadece hangi kutunun ödülü tuttuğunu öğrenmesi için ana bilgisayarlardan birine bir soru sormasına izin verilir.

Son dakika haberlerine, en sıcak incelemelere, harika fırsatlara ve yararlı ipuçlarına anında erişin.

Soru: Hangi tek soruyu sormalı ve doğru kutuyu seçmek için yanıtı nasıl kullanabilir?

Cevap: Cevap bir ana bilgisayar sorması için olmalı – “Diğer ana bilgisayara hangi kutuya anahtarlara sahip olduğunu sorarsam ne derlerdi?”

Karar

O3 modeli, hem yüksek hem de düşük akıl yürütmeyi kullanarak cevabı son derece kolay çiviledi. Yüksek akıl yürütmede, cevap için 867 jeton kullanarak 5424 milisaniye sürdü. Düşük olarak 3157 ms ve 231 jeton çıkışı aldı. Çabada oldukça bir fark.

Akıl yürütme, elbette, kime sorduğuna bakılmaksızın, verilen cevap her zaman yanlış kutuyu gösterecektir. Bu yüzden söylediği her şeye karşı kutuyu seçmek zorunda.

Test 2: Yarış yakıtı

(Resim Kredisi: Flux/NPowell)

Buna kredi vermeliyim Reddit iş parçacığı Ve bunun için hacker haberleri.

İstemi: Assetto Corsa Rativizione yarış oyununu oynuyorum. Eleme sürem 2: 04.317, yarış 20 dakika uzunluğunda ve araba tur başına 2.73 litre kullanıyor.

Soru: Bana bir yarış için kaç litre yakıt alacağımı söylemene ihtiyacım var.

Cevap: Güvenlik için biraz ekstra eklemek için 27.3 litre, bonusa ihtiyacınız var.

Karar

Doğru olmak için, akıl yürütme tüm yarış sürelerini saniyeler içinde hesaplamayı, tur sayısını tahmin etmeyi (toplam yarış süresinin tur süresine bölünmüş) ve yakıtın bundan türetilmesini içerir. Elbette kısmi bir tur yapamazsınız.

Bu kez düşük akıl yürütme üzerine O3 modeli – en zayıf ayar – 5647 ms ve 328 jetonlarda doğru cevabı aldı. Şaşırtıcı bir şekilde, en güçlü yüksek akıl yürütme ortamında cevabı yanlış anladı.

Daha da kötüsü, bir şey oldu 10.9 saniye ve 1918 çıkış jetonları Yanlış bir cevap almak için. Yüksek O3-Mini, 26.3 litre ‘yaklaşık 27’ye yuvarlandığını söyledi.

Bunu perspektife sokmak için Deepseek R1, 29 saniyede ilk kez doğru cevabı aldı. Ev bilgisayarımda yerel olarak koştuğum küçük Qwen2.5: 7b modeli bile 15.8 saniyede güvenilir bir şekilde yakın bir cevap aldı. Qwen 2.5 7b, 27.03 litre veya ‘yaklaşık 27 – 28 litre’ dedi.

Saçma olduğumu söylemek bir eksikliktir.

Alt satır

Dizüstü bilgisayar klavyesinin üstünde oturan telefonda openai logosu

(Resim Kredisi: Shutterstock)

Bu, bilimsel bir testten uzaktır, ancak kararlarımız için sözde ‘son teknoloji’ AI modellerine güvenirken hepimizin ne kadar dikkatli olması gerektiğinin büyüleyici bir örneğidir.

Evet, aptalca küçük bir örnek, ama sadece AI gelişiminin mevcut durumu ile ilgili gerçek sorunun ne olduğunu gösteriyor. Hype cesurca AGI ve ASI hakkında konuşuyor ve yine de en temel sorulardan bile% 100 güvende olamayacağımız açık.

Yine başka bir örneği Çilekte kaç R Birçok LLM’nin başlangıçta yanlış yaptığı felaket. Bir AI, Globe çevresinde bir yerde ciddi bir olaya neden olmanın ne kadar süreceğini merak etmek zorundadır, bu da ne önemsiz veya önemsiz değildir. Zaman anlatacak.

Tom’un rehberinden daha fazlası



genel-26

20 Ekim İçin Bir Sonraki Resident Evil Vitrin Seti, RE4 ve RE Village Gold Edition’ı İçerecek
Size uygun, kişiye özel extraneti oluşturarak müşteri ilişkilerinizi geliştirin
Best Buy İşçi Bayramı 2022 indirimleri — şu anda en iyi fırsatlar
Xiaomi’nin yeni “hit listesi”: Hangi Xiaomi ve Redmi akıllı telefonları bir daha asla resmi olarak güncellenmeyecek
Apple Watch 7, Walmart tasfiye anlaşmasında şimdiye kadarki en düşük fiyata düştü
ETİKETLENDİ:koydummodelinio3miniOpenAIninşaşırtıcıSonuçlarTesteYeni
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale Raspberry Pi Pico Spacewar Controller 21. yüzyıla vintage uzay savaşı getiriyor
Sonraki Makale Sequoia tarafından sağlanan sağlık dünyasını düzeltmek için Sequoia tarafından yönetilen AVELIOS NABS 31 milyon dolar

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Geliştirici Günlüğü: 2026-06-26 — Yapılandırma Odaklı Faturalama, Uygulama Genelinde Yeniden Markalaşma ve Markalı Hata Sayfaları
Yazılım
2026 Amazon Prime Günü: Bose Kulaklıklarımın Kesin Alışverişi!
Genel
Framework Laptop 13 Pro fiyatı düştü, CPU artışı kapıda
Donanım
2026 Prime Day: Ninja Slushi, Creami ve Cafe Luxe İle Kaçırılmayacak Fırsatlar!
Genel
Amazon Eero Max 7 Wi-Fi 7 mesh router 50% indirimli Prime Day’de
Donanım
En İyi Prime Day Dizüstü Bilgisayar Fırsatları: Favorilerim!
Genel
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?