OpenAI, Perşembe günü yeni o1 modellerini yayınladı ve ChatGPT kullanıcılarına cevap vermeden önce “düşünmek” için duraklayan AI modellerini denemeleri için ilk şansı verdi. OpenAI içinde “Strawberry” kod adlı bu modeller için çok fazla reklam yapıldı. Peki Strawberry reklamı hak ediyor mu?

Bir nevi.

GPT-4o ile karşılaştırıldığında, o1 modelleri bir adım ileri ve iki adım geri gibi hissettiriyor. OpenAI o1, akıl yürütme ve karmaşık soruları yanıtlamada mükemmel, ancak modelin kullanımı GPT-4o’dan yaklaşık dört kat daha pahalı. OpenAI’nin son modeli, GPT-4o’yu bu kadar etkileyici kılan araçlardan, çok modlu yeteneklerden ve hızdan yoksun. Aslında, OpenAI şunu bile kabul ediyor: “GPT-4o çoğu istem için hala en iyi seçenektiryardım sayfasında ve başka yerlerde o1’in daha basit görevlerde zorlandığına dair notlar yer alıyor.

Yapay zeka modelleri üzerinde çalışan NYU profesörü Ravid Shwartz Ziv, “Etkileyici, ancak bence gelişme çok önemli değil,” dedi. “Belirli problemlerde daha iyi, ancak genel anlamda böyle bir gelişme yok.”

Tüm bu nedenlerden dolayı, o1’i yalnızca gerçekten yardımcı olmak için tasarlandığı sorular için kullanmak önemlidir: büyük sorular. Açık olmak gerekirse, çoğu insan bugün bu tür soruları yanıtlamak için üretken AI kullanmıyor, büyük ölçüde günümüzün AI modelleri bu konuda çok iyi olmadığı için. Ancak, o1 bu yönde atılmış geçici bir adımdır.

Büyük fikirler üzerinde düşünmek

OpenAI o1, cevap vermeden önce “düşündüğü”, büyük sorunları küçük adımlara böldüğü ve bu adımlardan birini doğru veya yanlış yaptığı zamanı belirlemeye çalıştığı için benzersizdir. Bu “çok adımlı akıl yürütme” tamamen yeni değildir (araştırmacılar bunu yıllardır önermektedir ve You.com bunu karmaşık sorgular için kullanır), ancak yakın zamana kadar pratik değildi.

“AI topluluğunda çok fazla heyecan var,” dedi Workera CEO’su ve makine öğrenimi dersleri veren Stanford yardımcı öğretim görevlisi Kian Katanforoosh bir röportajda. “OpenAI’nin sahip olduğu bazı dil modeli teknikleriyle eşleştirilmiş bir takviyeli öğrenme algoritması eğitebilirseniz, teknik olarak adım adım düşünme yaratabilir ve AI modelinin üzerinde çalışmaya çalıştığınız büyük fikirlerden geriye doğru yürümesine izin verebilirsiniz.”

OpenAI o1 de benzersiz bir şekilde pahalıdır. Çoğu modelde, girdi belirteçleri ve çıktı belirteçleri için ödeme yaparsınız. Ancak o1, ​​gizli bir süreç ekler (modelin büyük sorunları parçalara ayırdığı küçük adımlar), bu da asla tam olarak göremediğiniz büyük miktarda hesaplama ekler. OpenAI, rekabet avantajını korumak için bu sürecin bazı ayrıntılarını gizler. Bununla birlikte, bunlar için yine de “akıl yürütme belirteçleri” şeklinde ücretlendirilirsiniz. Bu, OpenAI o1’i kullanırken neden dikkatli olmanız gerektiğini daha da vurgular, böylece Nevada’nın başkentinin nerede olduğunu sormak için bir ton belirteç ücretlendirilmezsiniz.

“Büyük fikirlerden geriye doğru yürümenize” yardımcı olan bir AI modeli fikri güçlüdür. Pratikte, model bu konuda oldukça iyidir.

Bir örnekte, ChatGPT o1 preview’den ailemin Şükran Günü’nü planlamasına yardımcı olmasını istedim, bu görev biraz tarafsız mantık ve akıl yürütmeden faydalanabilir. Özellikle, 11 kişilik bir Şükran Günü yemeği pişirmek için iki fırının yeterli olup olmayacağını anlamak için yardım istedim ve üçüncü bir fırına erişim sağlamak için bir Airbnb kiralamayı düşünüp düşünmememiz gerektiğini konuşmak istedim.

(Maxwell Zeff/AçıkAI)
(Maxwell Zeff/AçıkAI)

12 saniyelik “düşünme”nin ardından ChatGPT bana 750+ kelimelik bir yanıt yazdı ve sonunda bana iki fırının dikkatli bir stratejiyle yeterli olacağını ve ailemin maliyetten tasarruf etmesini ve birlikte daha fazla zaman geçirmesini sağlayacağını söyledi. Ancak her adımda düşüncesini benim için parçalara ayırdı ve maliyetler, aile zamanı ve fırın yönetimi dahil olmak üzere tüm bu dış faktörleri nasıl değerlendirdiğini açıkladı.

ChatGPT o1 önizlemesi, etkinliğe ev sahipliği yapan evde fırın alanını nasıl önceliklendireceğimi söyledi, bu akıllıcaydı. Garip bir şekilde, gün boyunca taşınabilir bir fırın kiralamayı düşünmemi önerdi. Bununla birlikte, model, tam olarak hangi yemekleri getirdiğimle ilgili birden fazla takip sorusu gerektiren ve ardından daha az yararlı bulduğum temel tavsiyeler veren GPT-4o’dan çok daha iyi performans gösterdi.

Şükran Günü yemeği hakkında soru sormak saçma görünebilir, ancak bu aracın karmaşık görevleri parçalara ayırmada ne kadar yararlı olabileceğini görebilirsiniz.

Ayrıca o1’den iş yerinde yoğun bir gün planlamamda bana yardımcı olmasını istedim. Havaalanı, çeşitli yerlerde birden fazla yüz yüze görüşme ve ofisim arasında seyahat etmem gerekiyordu. Bana çok detaylı bir plan verdi ama belki biraz fazlaydı. Bazen eklenen tüm adımlar biraz bunaltıcı olabiliyor.

Daha basit bir soru için, o1 çok fazla şey yapıyor — ne zaman aşırı düşünmeyi bırakacağını bilmiyor. Amerika’da sedir ağaçlarının nerede bulunabileceğini sordum ve ülkedeki sedir ağaçlarının her çeşidini, bilimsel adları da dahil olmak üzere ana hatlarıyla açıklayan 800’den fazla kelimelik bir yanıt verdi. Hatta bir noktada, bir nedenden ötürü OpenAI’nin politikalarına danışmak zorunda kaldı. GPT-4o bu soruyu yanıtlamada çok daha iyi bir iş çıkardı ve bana ağaçları ülkenin her yerinde bulabileceğinizi açıklayan yaklaşık üç cümle verdi.

Beklentileri yumuşatmak

Bazı açılardan, Strawberry asla bu abartıya yetişemeyecekti. OpenAI’nin akıl yürütme modelleriyle ilgili raporlar, herkesin OpenAI yönetim kurulunun Sam Altman’ı neden görevden aldığına dair bir cevap aradığı zamana, yani Kasım 2023’e dayanıyor. Bu, AI dünyasında söylenti değirmenini harekete geçirdi ve bazıları Strawberry’nin, OpenAI’nin nihayetinde yaratmayı arzuladığı aydınlanmış AI versiyonu olan AGI’nin bir biçimi olduğu yönünde spekülasyon yapmaya başladı.

Altman o1’in doğrulanmadığı AGI, şüpheleri gidermek için, şeyi kullandıktan sonra kafanızın karışacağı anlamına gelmiyor. CEO ayrıca bu lansmanla ilgili beklentileri de azalttı, tweet atma “o1 hala kusurludur, hala sınırlıdır ve hala ilk kullanımda, onunla daha fazla zaman geçirdikten sonra olduğundan daha etkileyici görünmektedir.”

Yapay zeka dünyasının geri kalanı ise beklenenden daha az heyecan verici bir lansmanla karşı karşıya.

OpenAI’nin modellerini kullanarak web kazıyıcıları oluşturan yapay zeka girişimi ReWorkd’de araştırma mühendisi olan Rohan Pandey, “Bu heyecan OpenAI’nin kontrolünden çıktı” dedi.

o1’in muhakeme yeteneğinin, GPT-4’ün yetersiz kaldığı karmaşık problemlerden oluşan bir niş kümesini çözmek için yeterince iyi olmasını umuyor. Sektördeki çoğu insanın o1’i bu şekilde görmesi muhtemeldir, ancak GPT-4’ün sektör için temsil ettiği devrim niteliğindeki ileri adım olarak değil.

“Herkes yetenekler için bir adım işlevi değişikliği bekliyor ve bunun bunu temsil edip etmediği belirsiz. Bence bu kadar basit,” dedi daha önce Databricks’in yapay zeka modeli Dolly’yi birlikte yaratan Brightwave CEO’su Mike Conover bir röportajda.

Buradaki değer nedir?

O1’i oluşturmak için kullanılan temel prensipler yıllar öncesine dayanıyor. Google, 2016’da benzer teknikleri kullanarak, Go oyununun dünya şampiyonunu yenen ilk yapay zeka sistemi olan AlphaGo’yu yarattı, eski Google çalışanı ve girişim şirketi S32’nin CEO’su Andy Harrison’ın belirttiği gibi. AlphaGo, sayısız kez kendi kendine oynayarak eğitildi, esasen insanüstü bir kapasiteye ulaşana kadar kendi kendini eğitti.

Bunun yapay zeka dünyasında asırlardır süregelen bir tartışmayı yeniden gündeme getirdiğini belirtiyor.

Harrison bir röportajında, “Birinci kamp, ​​bu aracı süreçle iş akışlarını otomatikleştirebileceğinizi düşünüyor. İkinci kamp, ​​genelleştirilmiş zeka ve muhakeme yeteneğiniz olsaydı, iş akışına ihtiyaç duymayacağınızı ve yapay zekanın bir insan gibi sadece bir karar vereceğini düşünüyor” dedi.

Harrison birinci kampta olduğunu ve ikinci kampın doğru kararı vermek için yapay zekaya güvenmenizi gerektirdiğini söylüyor. Henüz orada olduğumuzu düşünmüyor.

Ancak bazıları o1’in bir karar verici olmaktan çok, büyük kararlar alırken düşüncelerinizi sorgulayabileceğiniz bir araç olduğunu düşünüyor.

Workera CEO’su Katanforoosh, şirketinde çalışması için bir veri bilimcisiyle görüşmeye gittiği bir örneği anlattı. OpenAI o1’e sadece 30 dakikası olduğunu ve belirli sayıda beceriyi değerlendirmek istediğini söyledi. Bunu doğru düşünüp düşünmediğini anlamak için AI modeliyle geriye doğru çalışabilir ve o1 zaman kısıtlamalarını ve benzeri şeyleri anlayacaktır.

Soru şu ki, bu faydalı araç bu yüksek fiyat etiketine değer mi? AI modelleri ucuzlamaya devam ederken, o1 uzun zamandır gördüğümüz ilk AI modellerinden biri ve daha pahalı hale geliyor.



genel-24