SohbetGPT yapımcısı OpenAI duyuruldu Bir sonraki büyük ürünü: Resmi adı OpenAI o1 olan, kod adı Strawberry olan üretken bir yapay zeka modeli.

Daha kesin olmak gerekirse, o1 aslında bir model ailesidir. İkisi Perşembe günü ChatGPT’de ve OpenAI’nin API’si aracılığıyla mevcuttur: o1-preview ve o1-mini, kod üretimine yönelik daha küçük, daha verimli bir model.

ChatGPT istemcisinde o1’i görmek için ChatGPT Plus veya Team’e abone olmanız gerekecek. Kurumsal ve eğitim kullanıcıları önümüzdeki hafta başında erişime kavuşacak.

O1 chatbot deneyiminin şu anda oldukça sade olduğunu unutmayın. O1’in atası olan GPT-4o’nun aksine, o1 henüz web’de gezinemez veya dosyaları analiz edemez. Modelin görüntü analiz etme özellikleri var, ancak ek testler beklenirken devre dışı bırakıldılar. Ve o1 hız sınırlamasına sahiptir; haftalık sınırlar şu anda o1-preview için 30 mesaj ve o1-mini için 50 mesajdır.

Başka bir olumsuzlukta, o1 masraflı. Çok pahalı. API’de, o1-preview 1 milyon girdi token’ı başına 15$ ve 1 milyon çıktı token’ı başına 60$’dır. Bu, girdi için GPT-4o’ya kıyasla 3 kat daha fazla maliyet ve çıktı için 4 kat daha fazla maliyettir. (“Token’lar” ham veri bitleridir; 1 milyon yaklaşık 750.000 kelimeye eşdeğerdir.)

OpenAI, o1-mini erişimini ChatGPT’nin tüm ücretsiz kullanıcılarına getirmeyi planladığını söylüyor ancak bir çıkış tarihi belirlemedi. Şirketi buna bağlı tutacağız.

Akıl yürütme zinciri

OpenAI o1, bir sorunun tüm bölümlerini göz önünde bulundurarak daha fazla zaman harcayarak kendisini etkili bir şekilde gerçekleri kontrol edebildiği için, normalde üretken AI modellerini tökezleten bazı akıl yürütme tuzaklarından kaçınır. OpenAI’ye göre, o1’i diğer üretken AI modellerinden niteliksel olarak farklı “hissettiren” şey, sorgulara yanıt vermeden önce “düşünme” yeteneğidir.

“Düşünmek” için ek zaman verildiğinde, o1 bir görevi bütünsel olarak akıl yürütebilir – önceden planlama yapabilir ve modelin bir cevaba ulaşmasına yardımcı olan bir dizi eylemi uzun bir süre boyunca gerçekleştirebilir. Bu, o1’i bir avukatın gelen kutusundaki ayrıcalıklı e-postaları tespit etmek veya bir ürün pazarlama stratejisi üzerinde beyin fırtınası yapmak gibi birden fazla alt görevin sonuçlarını sentezlemeyi gerektiren görevler için oldukça uygun hale getirir.

Bir dizi halinde gönderiler Perşembe günü X’te, OpenAI’da araştırma görevlisi olan Noam Brown, “o1’in takviyeli öğrenme ile eğitildiğini” söyledi. Brown, bunun sisteme, o1 doğru cevaplar verdiğinde ödüller, doğru cevaplar vermediğinde cezalar yoluyla “özel bir düşünce zinciri aracılığıyla cevap vermeden önce ‘düşünmeyi’ öğrettiğini” söyledi.

Brown, OpenAI’nin “muhakeme verileri” ve özellikle muhakeme görevleri için uyarlanmış bilimsel literatür içeren yeni bir optimizasyon algoritması ve eğitim veri setinden yararlandığına değindi. “Daha uzun [o1] “Düşündükçe daha iyi yapıyor” dedi.

Açık AI o1
Resim Kredileri: Açık AI

TechCrunch’a o1’i piyasaya sürülmeden önce test etme fırsatı sunulmadı; mümkün olan en kısa sürede elimize alacağız. Ancak bir kişiye göre yaptı erişime sahip olmak — Thomson Reuters’da Başkan Yardımcısı olan Pablo Arredondo — o1, hukuki brifingleri analiz etme ve LSAT mantık oyunlarındaki sorunlara çözümler bulma gibi konularda OpenAI’nin önceki modellerinden (örneğin GPT-4o) daha iyidir.

Arredondo, TechCrunch’a “Daha önemli, çok yönlü analizler yaptığını gördük,” dedi. “Otomatik testlerimiz ayrıca çok çeşitli basit görevlere karşı kazanımlar gösterdi.”

Uluslararası Matematik Olimpiyatı (IMO) için yapılan bir eleme sınavında, lise düzeyinde matematik yarışmasında, o1 problemlerin %83’ünü doğru çözerken, GPT-4o sadece %13’ünü çözdü (Google DeepMind’ın son AI’sının da hesaba katılması durumunda bu daha az etkileyici). başarıldı (Gerçek IMO yarışmasına eşdeğer bir yarışmada gümüş madalya) OpenAI ayrıca o1’in katılımcıların yüzde 89’luk dilimine ulaştığını söylüyor. Bu, DeepMind’ın amiral gemisi sistemi AlphaCode 2’den daha iyi bir sonuç. Bu, Codeforces olarak bilinen çevrimiçi programlama yarışması turlarında da geçerli.

Açık AI o1
Resim Kredileri: Açık AI

OpenAI, genel olarak o1’in veri analizi, bilim ve kodlamadaki problemlerde daha iyi performans göstermesi gerektiğini söylüyor. (o1’i AI kodlama asistanıyla test eden GitHub) GitHub Yardımcı Pilotu, raporlar (Model algoritmaları ve uygulama kodlarını optimize etmede yeteneklidir.) Ve en azından OpenAI’nin kıyaslamasına göre, o1 çok dilli becerilerinde, özellikle Arapça ve Korece gibi dillerde GPT-4o’dan daha iyidir.

Wharton’da yönetim profesörü olan Ethan Mollick, yazdı o1’i bir ay kullandıktan sonra kişisel blogunda yazdığı bir yazıda izlenimlerini aktardı. Zorlu bir bulmacada o1’in iyi bir iş çıkardığını söyledi — tüm cevapları doğru cevapladı (yeni bir ipucu halüsinasyonu görmesine rağmen).

OpenAI o1 mükemmel değil

Şimdi dezavantajları da var.

Açık AI o1 olabilmek sorguya bağlı olarak diğer modellerden daha yavaş olabilir. Arredondo, o1’in bazı soruları yanıtlamasının 10 saniyeden fazla sürebileceğini; gerçekleştirdiği mevcut alt görev için bir etiket görüntüleyerek ilerlemesini gösterdiğini söylüyor.

Üretken AI modellerinin öngörülemez doğası göz önüne alındığında, o1’in muhtemelen başka kusurları ve sınırlamaları da vardır. Örneğin, Brown o1’in zaman zaman üç taş oyunlarında tökezlediğini kabul etti. Ve bir teknik makaleOpenAI, test kullanıcılarından o1’in halüsinasyon görme eğiliminde olduğu (yani kendinden emin bir şekilde bir şeyler uydurduğu) yönünde anekdotsal geri bildirimler aldığını söyledi Daha GPT-4o’dan daha az sıklıkla yanıt verir ve bir sorunun yanıtını bilmediğini kabul eder.

“Hatalar ve halüsinasyonlar hala oluyor [with o1]Mollick yazısında şöyle yazıyor: “Hâlâ kusursuz değil.”

Zamanla çeşitli konular hakkında daha fazla şey öğreneceğimize şüphe yok ve o1’i kendimiz sorgulama fırsatı bulduğumuzda bunu başaracağız.

Şiddetli rekabet

Bu tür akıl yürütme yöntemlerini araştırarak model gerçekliğini iyileştiren tek yapay zeka sağlayıcısının OpenAI olmadığını belirtmeden geçemeyiz.

Google DeepMind araştırmacıları yakın zamanda bir çalışmak Bu, modellere temelde daha fazla işlem süresi ve istekler yapıldıkça bunları yerine getirmeleri için rehberlik sağlayarak, söz konusu modellerin performansının herhangi bir ek ayarlamaya gerek kalmadan önemli ölçüde iyileştirilebileceğini göstermektedir.

Rekabetin şiddetini gözler önüne seren OpenAI söz konusu o1’in ham “düşünce zincirlerini” ChatGPT’de göstermemeye karar vermesinin kısmen “rekabet avantajı” nedeniyle olduğu belirtildi. (Bunun yerine şirket, zincirlerin “model tarafından oluşturulan özetlerini” göstermeyi tercih etti.)

OpenAI o1 ile ilk çıkan olabilir. Ancak rakiplerinin de benzer modellerle yakında aynı yolu izleyeceğini varsayarsak, şirketin gerçek testi o1’i yaygın olarak kullanılabilir hale getirmek olacak – ve daha ucuza.

Oradan, OpenAI’nin o1’in yükseltilmiş sürümlerini ne kadar hızlı teslim edebileceğini göreceğiz. Şirket, akıl yürütme yeteneklerini daha da artırmak için saatler, günler hatta haftalar boyunca akıl yürüten o1 modelleriyle denemeler yapmayı hedeflediğini söylüyor.



genel-24