Genellikle bir yazılım şirketi Mayıs ayında yeni bir büyük sürüm yayınladığında, bunu dört ay sonra başka bir büyük sürümle takip etmeye çalışmaz. Ancak üretken yapay zekadaki inovasyonun hızı olağandışıdır.

OpenAI, yeni GPT-4o modelini mayıs ayı ortasında piyasaya sürse de şirket boş durmadı. Geçtiğimiz Kasım ayından bu yana, Reuters bir söylenti yayınladı OpenAI’nin o zamanlar Q* olarak bilinen yeni nesil bir dil modeli üzerinde çalıştığını söyledi. Bu söylenti şöyleydi mayıs ayında onaylandıBu, Q*’nun Strawberry kod adı altında geliştirilme aşamasında olduğunu gösteriyor.

Strawberry’nin aslında o1-preview adlı bir şablon olduğu ve artık ChatGPT Plus abonelerinin kullanımına sunulan bir şablon olduğu ortaya çıktı. Seçim açılır listesinden modeli seçebilirsiniz:

menü

Ekran görüntüsü: David Gewirtz/ZDNET

Soruları ve sorunları adımlara ayırın

Tahmin edebileceğiniz gibi yeni bir ChatGPT modeli çıkarsa onu test edeceğim. Ben de burada bunu yapıyorum.

Yeni Strawberry modeli akıl yürütmeye, soruları ve sorunları adımlara ayırmaya odaklanıyor. OpenAI, bu yaklaşımı her yanıttan önce görüntülenebilecek gerekçelerin bir özeti aracılığıyla sunar.

o1-preview’e bir soru sorulduğunda, düşünür ve bu muhakemeyi gerçekleştirmek için geçen süreyi görüntüler. Açılır listeyi değiştirirseniz, gerekçenin göründüğünü göreceksiniz. İşte kodlama testlerimden birinden bir örnek:

muhakememuhakeme

Ekran görüntüsü: David Gewirtz/ZDNET

o1-preview şablonu kodun birçok açıklamasını sağlar

Yapay zekanın hata işlemeyi ekleyecek kadar bilgi sahibi olması iyi bir şey. O1-preview’in bu adımı “Düzenlemelere Uygunluk” olarak sınıflandırmasını ilginç buluyorum.

Ayrıca o1-preview şablonunun kodla ilgili birçok açıklama sağladığını da gördüm. Bir WordPress eklentisi oluşturmak için yaptığım ilk testimde şablon, başlık, sınıf yapısı, yönetici menüsü, yönetici sayfası, mantık, güvenlik önlemleri, uyumluluk, kurulum talimatları, kullanım talimatları ve hatta test verileri hakkında açıklamalar sağladı. Bu, önceki modellerin sağladığından çok daha fazla bilgi anlamına geliyor.

Ama gerçekte kanıt pudingin içindedir. Bu yeni modeli standart testlerimizden geçirelim ve ne kadar iyi performans gösterdiğini görelim.

1. Bir WordPress eklentisi yazın

Bu basit kodlama testi, PHP programlama dili ve WordPress çerçevesi hakkında bilgi gerektirir. Test, yapay zekanın hem arayüz kodunu hem de işlevsel mantığı yazmasını ister; özellikle de yinelenen girişleri kaldırmak yerine, yinelenen girişleri yan yana olmayacak şekilde ayırması gerekir.

o1-önizleme modeli mükemmeldi. Kullanıcı arayüzünü ilk olarak basit bir giriş alanı olarak sundu:

giriş alanıgiriş alanı

Ekran görüntüsü: David Gewirtz/ZDNET

Veriler girildikten ve Rastgele Satırlara tıklandıktan sonra yapay zeka, doğru şekilde rastgeleleştirilmiş çıktı verileri içeren bir çıktı alanı oluşturdu. Abigail Williams’ın kopyalandığını ve test talimatlarına göre iki girişin yan yana listelenmediğini görebilirsiniz:

çıktı-veriçıktı-veri

Ekran görüntüsü: David Gewirtz/ZDNET

Diğer LLM’ler üzerinde yaptığım testlerde on modelden yalnızca dördü bu testi geçti. o1-preview modeli bu testi mükemmel bir şekilde geçti.

2. Bir dize fonksiyonunu yeniden yazmak

İkinci testimiz, bir kullanıcı tarafından bildirilen bir hata olan bir dize normal ifadesini düzeltir. Orijinal kod, girilen bir sayının dolar ve sent için geçerli olup olmadığını test etmek için tasarlandı. Maalesef kod yalnızca tam sayılara izin veriyordu (yani 5’e izin veriliyordu, ancak 5,25’e izin verilmiyordu).

LLM o1-preview kodu başarıyla yeniden yazdı. Model, kazananlar arasında önceki LLM testlerimden dördüne katıldı.

3. Can sıkıcı bir hatanın keşfi

Bu test, düzeltmekte zorlandığım gerçek bir hatadan oluşturuldu. Temel nedeni belirlemek, programlama dili (bu durumda PHP) ve WordPress API’sinin nüansları hakkında bilgi sahibi olmayı gerektirir.

Sağlanan hata mesajları teknik olarak doğru değildi. Hata mesajları, yürütmekte olduğum çağrı dizisinin başlangıcını ve bitişini ifade ediyordu, ancak hata, kodun orta kısmıyla ilgiliydi.

Sorunu çözmek için çabalayan tek kişi ben değildim. Test ettiğim diğer LLM’lerden üçü sorunun temel nedenini belirleyemedi ve en bariz (ama kusurlu) çözümü, çağrı sırasının başlangıcını ve sonunu değiştirmek olarak önerdi.

o1-preview şablonu doğru çözümü sağladı. Açıklamasında şablon, yanlış kullandığım işlevler için WordPress API belgelerine de işaret ediyordu. Tavsiyesini neden yaptığını öğrenmek için ek bir kaynak sağlamaya yetecek kadar. Çok faydalı.

4. Bir senaryo yazın

Bu zorluk, yapay zekanın bilgiyi üç farklı kodlama alanında entegre etmesini gerektirir:

  • AppleScript dili
  • Chrome DOM (bir web sayfasının iç yapısı)
  • Keyboard Maestro (özel bir programlama aracı)

Bu soruyu cevaplamak için bu üç teknolojiyi ve bunların birlikte nasıl çalışması gerektiğini anlamanız gerekir.

o1-preview bir kez daha başarılı oldu ve bu sorunu çözen diğer on LLM’den yalnızca üçüne katıldı.

Çok konuşkan bir chatbot

O1-önizleme için yeni akıl yürütme yaklaşımı bu nedenle ChatGPT’nin programlama testlerimizi geçme yeteneğini azaltmaz. Özellikle ilk WordPress eklenti testimin sonucu, önceki sürümlere göre daha gelişmiş bir yazılım olarak işlev görüyor gibi görünüyor.

ChatGPT’nin çalışmasının başında akıl yürütme adımları ve sonunda açıklayıcı veriler sunması iyi bir şey. Ancak açıklamalar uzun olabilir. o1-preview’den programlamadaki kanonik test satırı olan C#’ta “Merhaba dünya” yazmasını istedim. GPT-4o’nun yanıtı şöyle:

csharp-gpt4ocsharp-gpt4o

Ekran görüntüsü: David Gewirtz/ZDNET

İşte o1-preview’in aynı teste nasıl yanıt verdiği:

keskin düşünmekeskin düşünme

Ekran görüntüsü: David Gewirtz/ZDNET

Bu çok fazla. Daha fazla bilgi almak için gerekçe açılır menüsünü de çevirebilirsiniz:

keskin düşünmekeskin düşünme

Ekran görüntüsü: David Gewirtz/ZDNET

Bu bilgilerin hepsi mükemmel. Ancak filtrelenecek çok fazla metin var. Açılır menülerdeki ek bilgi seçenekleriyle birlikte kısa bir açıklamayı tercih ederim.

Yine de ChatGPT’nin o1 önizleme modeli mükemmel sonuçlar verdi. Dosya tarama ve web erişimi gibi GPT-4o özellikleriyle daha tam entegre edildiğinde nasıl performans göstereceğini görmek için sabırsızlanıyorum.

o1-preview ile kodlamayı denediniz mi? Deneyimleriniz nelerdi? Aşağıdaki yorumlarda bize bildirin.

Kaynak : “ZDNet.com”



genel-15