OpenAI, daha karmaşık soruları bir insanın yapabileceğinden daha hızlı yanıtlamak üzere eğitilmiş, planlanan bir dizi “akıl yürütme” modelinin ilki olan o1 adlı yeni bir model yayınlıyor. Daha küçük ve daha ucuz bir versiyon olan o1-mini ile birlikte yayınlanıyor. Ve evet, AI söylentilerine bulaştıysanız: bu aslında, aşırı abartılan Çilek modeli.

OpenAI için o1, insan benzeri yapay zekanın daha geniş hedefine doğru atılmış bir adımı temsil ediyor. Daha pratik olarak, kod yazma ve çok adımlı sorunları çözme konusunda önceki modellerden daha iyi iş çıkarıyor. Ancak aynı zamanda GPT-4o’dan daha pahalı ve kullanımı daha yavaş. OpenAI, o1’in bu sürümünün ne kadar yeni olduğunu vurgulamak için bir “önizleme” olarak adlandırıyor.

ChatGPT Plus ve Team kullanıcıları bugün itibarıyla hem o1-preview hem de o1-mini’ye erişim elde ederken, Enterprise ve Edu kullanıcıları önümüzdeki haftanın başlarında erişim elde edecek. OpenAI, o1-mini erişimini ChatGPT’nin tüm ücretsiz kullanıcılarına getirmeyi planladığını söylüyor ancak henüz bir yayın tarihi belirlemedi. Geliştiricinin o1’e erişimi Gerçekten pahalı: API’de, o1-preview, model tarafından ayrıştırılan 1 milyon giriş belirteci veya metin parçası başına 15$ ve 1 milyon çıktı belirteci başına 60$’dır. Karşılaştırma için, GPT-4o, 1 milyon giriş belirteci başına 5$ ve 1 milyon çıktı belirteci başına 15$’dır.

OpenAI’nin araştırma lideri Jerry Tworek, o1’in arkasındaki eğitimin öncüllerinden temelde farklı olduğunu söylüyor, ancak şirket kesin ayrıntılar konusunda belirsiz davranıyor. O1’in “tamamen yeni bir optimizasyon algoritması ve bunun için özel olarak tasarlanmış yeni bir eğitim veri seti kullanılarak eğitildiğini” söylüyor.

OpenAI, önceki GPT modellerine eğitim verilerinden gelen kalıpları taklit etmeyi öğretti. o1 ile modeli, ödüller ve cezalar yoluyla sisteme öğreten takviyeli öğrenme olarak bilinen bir teknik kullanarak kendi başına sorunları çözmesi için eğitti. Daha sonra, insanların sorunları adım adım ele alarak işlemesine benzer şekilde, sorguları işlemek için bir “düşünce zinciri” kullanır.

Bu yeni eğitim metodolojisinin bir sonucu olarak, OpenAI modelin daha doğru olması gerektiğini söylüyor. Tworek, “Bu modelin daha az halüsinasyon gördüğünü fark ettik,” diyor. Ancak sorun hala devam ediyor. “Halüsinasyonları çözdüğümüzü söyleyemeyiz.”

OpenAI’ye göre, bu yeni modeli GPT-4o’dan ayıran en önemli özellik, kodlama ve matematik gibi karmaşık problemleri öncekilerden çok daha iyi ele alabilmesi ve aynı zamanda mantığını da açıklayabilmesi.

OpenAI’nin baş araştırma görevlisi Bob McGrew bana, “Bu model AP matematik testini çözmede kesinlikle benden daha iyi ve ben üniversitede matematik yan dalı öğrencisiydim,” diyor. OpenAI’nin ayrıca o1’i Uluslararası Matematik Olimpiyatı için bir yeterlilik sınavına karşı test ettiğini ve GPT-4o’nun problemlerin yalnızca %13’ünü doğru bir şekilde çözerken o1’in %83 puan aldığını söylüyor.

“Halüsinasyonları çözdük diyemeyiz”

Codeforces yarışmaları olarak bilinen çevrimiçi programlama yarışmalarında, bu yeni model katılımcıların yüzde 89’luk dilimine ulaştı ve OpenAI, bu modelin bir sonraki güncellemesinin “fizik, kimya ve biyolojideki zorlu kıstas görevlerinde doktora öğrencilerine benzer” performans göstereceğini iddia ediyor.

Aynı zamanda, o1 birçok alanda GPT-4o kadar yetenekli değil. Dünya hakkında gerçek bilgiler konusunda da o kadar iyi değil. Ayrıca web’de gezinme veya dosyaları ve görüntüleri işleme yeteneğine sahip değil. Yine de şirket, bunun yepyeni bir yetenek sınıfını temsil ettiğine inanıyor. “Sayacı 1’e sıfırlamak” anlamına gelen o1 olarak adlandırıldı.

“Dürüst olacağım: Geleneksel olarak isimlendirmede berbat olduğumuzu düşünüyorum,” diyor McGrew. “Bu yüzden bunun, yaptığımız şeyi dünyanın geri kalanına daha iyi ileten daha yeni, daha mantıklı isimlerin ilk adımı olmasını umuyorum.”

O1’i kendim deneyemedim ama McGrew ve Tworek bu hafta bir görüntülü görüşmede bana gösterdiler. Ondan şu bulmacayı çözmesini istediler:

“Bir prenses, prensesin yaşı, prensesin yaşının bugünkü yaşlarının toplamının yarısı olduğu zaman, prensesin iki katı yaşında olduğunda, prensin yaşı kadar yaşlı olacaktır. Prens ve prensesin yaşı kaçtır? Bu sorunun tüm çözümlerini sağlayın.”

Model 30 saniye boyunca ara belleğe alındı ​​ve ardından doğru bir cevap verdi. OpenAI, arayüzü modelin düşündüğü gibi akıl yürütme adımlarını gösterecek şekilde tasarladı. Bana çarpıcı gelen şey, çalışmasını göstermesi değil — GPT-4o, istendiğinde bunu yapabilir — ancak o1’in insan benzeri düşünceyi ne kadar kasıtlı olarak taklit ettiğiydi. “Merak ediyorum”, “Düşünüyorum” ve “Tamam, bir bakayım” gibi ifadeler, adım adım bir düşünme yanılsaması yarattı.

Ama bu model düşünmüyor ve kesinlikle insan değil. Öyleyse neden öyleymiş gibi görünmesi için tasarladık?

“Merak ediyorum”, “Düşünüyorum” ve “Tamam, bakayım” gibi ifadeler adım adım düşünme yanılsaması yaratır.
Resim: OpenAI

Tworek’e göre OpenAI, AI model düşüncesini insan düşüncesiyle eşitlemeye inanmıyor. Ancak arayüzün, modelin sorunları işlemek ve çözmek için daha derinlemesine dalmak için ne kadar zaman harcadığını göstermesi amaçlanıyor. “Önceki modellere göre daha insani hissettirdiği yollar var.”

McGrew, “Bence bunun biraz yabancı hissettiren birçok yol olduğunu göreceksiniz, ancak aynı zamanda şaşırtıcı derecede insani hissettiren yollar da var,” diyor. Modele sorguları işlemek için sınırlı bir süre verilir, bu nedenle “Ah, zamanım tükeniyor, hemen bir cevaba geçeyim” gibi bir şey söyleyebilir. Başlangıçta, düşünce zinciri sırasında, beyin fırtınası yapıyormuş gibi görünebilir ve “Bunu veya şunu yapabilirim, ne yapmalıyım?” gibi bir şey söyleyebilir.

Temsilcilere doğru inşa etmek

Büyük dil modelleri tam olarak o kadar akıllı değil bugün var oldukları gibi. Esasen, büyük miktardaki verilerden öğrenilen kalıplara dayanarak size bir cevap vermek için kelime dizilerini tahmin ediyorlar. ChatGPT’yi ele alalım, bu da “Çilek” kelimesinin sadece iki R’si olduğunu yanlışlıkla iddia etmek çünkü kelimeyi doğru bir şekilde parçalamıyor. Değeri ne olursa olsun, yeni o1 modeli bu sorguyu doğru bir şekilde yaptı.

OpenAI’nin daha fazla fon toplamayı hedeflediği bildiriliyor 150 milyar dolarlık göz kamaştırıcı bir değerlemeyleivmesi daha fazla araştırma atılımına bağlıdır. Şirket, LLM’lere akıl yürütme yetenekleri getiriyor çünkü sizin adınıza kararlar alabilen ve eylemlerde bulunabilen otonom sistemler veya aracılarla bir gelecek görüyor.

Yapay zeka araştırmacıları için akıl yürütmeyi çözmek, insan seviyesindeki zekaya doğru atılacak önemli bir sonraki adımdır. Düşünce şu ki, bir model desen tanımanın ötesinde bir kapasiteye sahipse, tıp ve mühendislik gibi alanlarda çığır açıcı buluşların kilidini açabilir. Ancak şimdilik, o1’in akıl yürütme yetenekleri nispeten yavaş, ajan benzeri değil ve geliştiricilerin kullanması için pahalı.

McGrew, “Aylarca akıl yürütme üzerinde çalıştık çünkü bunun aslında kritik bir atılım olduğunu düşünüyoruz,” diyor. “Temelde, bu, insan benzeri zeka seviyelerine doğru ilerlemek için gereken gerçekten zor problemleri çözebilmek adına modeller için yeni bir yöntemdir.”



genel-2