kodlama testlerimi geçti ve... - Dünyadan Güncel Teknoloji Haberleri

Genellikle bir yazılım şirketi Mayıs ayında yeni bir büyük sürüm yayınladığında, bunu dört ay sonra başka bir büyük sürümle takip etmeye çalışmaz. Ancak üretken yapay zekadaki inovasyonun hızı olağandışıdır.

OpenAI, yeni GPT-4o modelini mayıs ayı ortasında piyasaya sürse de şirket boş durmadı. Geçtiğimiz Kasım ayından bu yana, Reuters bir söylenti yayınladı OpenAI’nin o zamanlar Q* olarak bilinen yeni nesil bir dil modeli üzerinde çalıştığını söyledi. Bu söylenti şöyleydi mayıs ayında onaylandıBu, Q*’nun Strawberry kod adı altında geliştirilme aşamasında olduğunu gösteriyor.

Strawberry’nin aslında o1-preview adlı bir şablon olduğu ve artık ChatGPT Plus abonelerinin kullanımına sunulan bir şablon olduğu ortaya çıktı. Seçim açılır listesinden modeli seçebilirsiniz:

menü

Ekran görüntüsü: David Gewirtz/ZDNET

Soruları ve sorunları adımlara ayırın

Tahmin edebileceğiniz gibi yeni bir ChatGPT modeli çıkarsa onu test edeceğim. Ben de burada bunu yapıyorum.

Yeni Strawberry modeli akıl yürütmeye, soruları ve sorunları adımlara ayırmaya odaklanıyor. OpenAI, bu yaklaşımı her yanıttan önce görüntülenebilecek gerekçelerin bir özeti aracılığıyla sunar.

o1-preview’e bir soru sorulduğunda, düşünür ve bu muhakemeyi gerçekleştirmek için geçen süreyi görüntüler. Açılır listeyi değiştirirseniz, gerekçenin göründüğünü göreceksiniz. İşte kodlama testlerimden birinden bir örnek:

muhakeme

Ekran görüntüsü: David Gewirtz/ZDNET

o1-preview şablonu kodun birçok açıklamasını sağlar

Yapay zekanın hata işlemeyi ekleyecek kadar bilgi sahibi olması iyi bir şey. O1-preview’in bu adımı “Düzenlemelere Uygunluk” olarak sınıflandırmasını ilginç buluyorum.

Ayrıca o1-preview şablonunun kodla ilgili birçok açıklama sağladığını da gördüm. Bir WordPress eklentisi oluşturmak için yaptığım ilk testimde şablon, başlık, sınıf yapısı, yönetici menüsü, yönetici sayfası, mantık, güvenlik önlemleri, uyumluluk, kurulum talimatları, kullanım talimatları ve hatta test verileri hakkında açıklamalar sağladı. Bu, önceki modellerin sağladığından çok daha fazla bilgi anlamına geliyor.

Ama gerçekte kanıt pudingin içindedir. Bu yeni modeli standart testlerimizden geçirelim ve ne kadar iyi performans gösterdiğini görelim.

1. Bir WordPress eklentisi yazın

Bu basit kodlama testi, PHP programlama dili ve WordPress çerçevesi hakkında bilgi gerektirir. Test, yapay zekanın hem arayüz kodunu hem de işlevsel mantığı yazmasını ister; özellikle de yinelenen girişleri kaldırmak yerine, yinelenen girişleri yan yana olmayacak şekilde ayırması gerekir.

o1-önizleme modeli mükemmeldi. Kullanıcı arayüzünü ilk olarak basit bir giriş alanı olarak sundu:

giriş alanı

Ekran görüntüsü: David Gewirtz/ZDNET

Veriler girildikten ve Rastgele Satırlara tıklandıktan sonra yapay zeka, doğru şekilde rastgeleleştirilmiş çıktı verileri içeren bir çıktı alanı oluşturdu. Abigail Williams’ın kopyalandığını ve test talimatlarına göre iki girişin yan yana listelenmediğini görebilirsiniz:

çıktı-veri

Ekran görüntüsü: David Gewirtz/ZDNET

Diğer LLM’ler üzerinde yaptığım testlerde on modelden yalnızca dördü bu testi geçti. o1-preview modeli bu testi mükemmel bir şekilde geçti.

2. Bir dize fonksiyonunu yeniden yazmak

İkinci testimiz, bir kullanıcı tarafından bildirilen bir hata olan bir dize normal ifadesini düzeltir. Orijinal kod, girilen bir sayının dolar ve sent için geçerli olup olmadığını test etmek için tasarlandı. Maalesef kod yalnızca tam sayılara izin veriyordu (yani 5’e izin veriliyordu, ancak 5,25’e izin verilmiyordu).

LLM o1-preview kodu başarıyla yeniden yazdı. Model, kazananlar arasında önceki LLM testlerimden dördüne katıldı.

3. Can sıkıcı bir hatanın keşfi

Bu test, düzeltmekte zorlandığım gerçek bir hatadan oluşturuldu. Temel nedeni belirlemek, programlama dili (bu durumda PHP) ve WordPress API’sinin nüansları hakkında bilgi sahibi olmayı gerektirir.

Sağlanan hata mesajları teknik olarak doğru değildi. Hata mesajları, yürütmekte olduğum çağrı dizisinin başlangıcını ve bitişini ifade ediyordu, ancak hata, kodun orta kısmıyla ilgiliydi.

Sorunu çözmek için çabalayan tek kişi ben değildim. Test ettiğim diğer LLM’lerden üçü sorunun temel nedenini belirleyemedi ve en bariz (ama kusurlu) çözümü, çağrı sırasının başlangıcını ve sonunu değiştirmek olarak önerdi.

o1-preview şablonu doğru çözümü sağladı. Açıklamasında şablon, yanlış kullandığım işlevler için WordPress API belgelerine de işaret ediyordu. Tavsiyesini neden yaptığını öğrenmek için ek bir kaynak sağlamaya yetecek kadar. Çok faydalı.

4. Bir senaryo yazın

Bu zorluk, yapay zekanın bilgiyi üç farklı kodlama alanında entegre etmesini gerektirir:

AppleScript dili
Chrome DOM (bir web sayfasının iç yapısı)
Keyboard Maestro (özel bir programlama aracı)

Bu soruyu cevaplamak için bu üç teknolojiyi ve bunların birlikte nasıl çalışması gerektiğini anlamanız gerekir.

o1-preview bir kez daha başarılı oldu ve bu sorunu çözen diğer on LLM’den yalnızca üçüne katıldı.

Çok konuşkan bir chatbot

O1-önizleme için yeni akıl yürütme yaklaşımı bu nedenle ChatGPT’nin programlama testlerimizi geçme yeteneğini azaltmaz. Özellikle ilk WordPress eklenti testimin sonucu, önceki sürümlere göre daha gelişmiş bir yazılım olarak işlev görüyor gibi görünüyor.

ChatGPT’nin çalışmasının başında akıl yürütme adımları ve sonunda açıklayıcı veriler sunması iyi bir şey. Ancak açıklamalar uzun olabilir. o1-preview’den programlamadaki kanonik test satırı olan C#’ta “Merhaba dünya” yazmasını istedim. GPT-4o’nun yanıtı şöyle:

csharp-gpt4o

Ekran görüntüsü: David Gewirtz/ZDNET

İşte o1-preview’in aynı teste nasıl yanıt verdiği:

keskin düşünme

Ekran görüntüsü: David Gewirtz/ZDNET

Bu çok fazla. Daha fazla bilgi almak için gerekçe açılır menüsünü de çevirebilirsiniz:

keskin düşünme

Ekran görüntüsü: David Gewirtz/ZDNET

Bu bilgilerin hepsi mükemmel. Ancak filtrelenecek çok fazla metin var. Açılır menülerdeki ek bilgi seçenekleriyle birlikte kısa bir açıklamayı tercih ederim.

Yine de ChatGPT’nin o1 önizleme modeli mükemmel sonuçlar verdi. Dosya tarama ve web erişimi gibi GPT-4o özellikleriyle daha tam entegre edildiğinde nasıl performans göstereceğini görmek için sabırsızlanıyorum.

o1-preview ile kodlamayı denediniz mi? Deneyimleriniz nelerdi? Aşağıdaki yorumlarda bize bildirin.

Kaynak : “ZDNet.com”

genel-15

kodlama testlerimi geçti ve…

Byteknomers

Soruları ve sorunları adımlara ayırın

o1-preview şablonu kodun birçok açıklamasını sağlar

1. Bir WordPress eklentisi yazın

2. Bir dize fonksiyonunu yeniden yazmak

3. Can sıkıcı bir hatanın keşfi

4. Bir senaryo yazın

Çok konuşkan bir chatbot

By teknomers

Benzer İçerikler

WhatsApp veya Telegram: Ruslar arasında hangi mesajlaşma aracı daha popüler

Apple Mac mini M4, onarılabilirlik konusunda iFixit’ten tam not alıyor – ancak SSD yükseltmelerinin dezavantajları da yok değil

OvrC Platformu Güvenlik Açıkları IoT Cihazlarını Uzaktan Saldırılara ve Kod Yürütülmesine Maruz Bırakıyor

HIDIVE Ekliyor Ben Bir Devim S Dereceli Bir Canavar Ama Bir Kediyle Karıştırıldım Bir Elf Kızının Evcil Hayvanı Olarak Yaşıyorum

ARC Raiders Oynanış Tanıtımı Yeni Çıkarma Yönüne İlk Bakışı Sağlıyor

Sony’nin PS5 için ücretsiz PlayStation VR adaptörü iki hafta içinde kullanımdan kaldırılıyor

UniVersus Kritik Rol: Heroes of Exandria’nın Çıkış Tarihini Açıkladı

Google, tüm kullanıcıların Gemini Advanced dosya analizini kullanmasına izin verebilir (ancak bir kotayla)

Geleceğin AirPods modelleri sağlığa odaklanacak

Yapay zeka tarafından oluşturulan müzik remiksleriyle YouTube denemeleri

Bu, Apple’ın 2026’da piyasaya sürülmesi planlanan en yeni ürünüdür

Hayatın formülü mü? Yeni model, evrenimizdeki ve ötesindeki akıllı varlıkların şansını hesaplıyor

Kasım ayında kartlarda ‘yıl dışı’ bir Leonid patlaması mı var?

Philae’nin olağanüstü kuyruklu yıldıza inişi yeniden yaşandı

Gökbilimciler blazar AO 0235+164’ün uzun vadeli değişkenliğini araştırıyor

İlginizi Çekebilir

WhatsApp veya Telegram: Ruslar arasında hangi mesajlaşma aracı daha popüler

Apple Mac mini M4, onarılabilirlik konusunda iFixit’ten tam not alıyor – ancak SSD yükseltmelerinin dezavantajları da yok değil

iQOO Neo 10 Serisinin Şematik Gösteri Tasarımında 6,78 İnç Ekran Alacağı İddia Edildi

Nvidia, promosyona uygun, eskimiş RTX 40 serisi – RTX 4070 ve üzeri GPU’ların süper satışına Indiana Jones oyun paketi sunuyor