OpenAI’nin ChatGPT sohbet robotu, yazılım hatalarını çok iyi düzeltebilir, ancak diğer yapay zeka yöntemlerine ve modellerine göre ana avantajı, insanlarla etkileşim kurma konusunda benzersiz yeteneğidir. Bu, bir yanıtın doğruluğunu artırmasına olanak tanır.
Johannes Gutenberg Üniversitesi Mainz (Almanya) ve University College London’dan (İngiltere) araştırmacılar, OpenAI’nin ChatGPT’sini “standart otomatik program onarım teknikleri” ve program onarımına yönelik iki derin öğrenme yaklaşımına karşı test etti. CoCoNut yöntemiKanada Waterloo Üniversitesi’ndeki araştırmacılar ve OpenAI’nin GitHub’dan Copilot otomatik tamamlama hizmetinin temelini oluşturan GPT-3 modeli Codex.
“ChatGPT’nin hata düzeltme performansının, yaygın CoCoNut ve Codex derin öğrenme yaklaşımlarıyla rekabet ettiğini ve standart program onarım yaklaşımları için bildirilen sonuçlardan önemli ölçüde daha iyi olduğunu bulduk”, araştırmacıları yeni bir arXiv araştırma makalesine yazın, ilk olarak New Scientist tarafından keşfedildi.
OpenAI, kod hata ayıklama örneklerinde ChatGPT’nin diyalog yeteneğini vurgular
ChatGPT’nin kodlama sorunlarını çözebilmesi yeni bir şey değil. Ancak araştırmacılar, insanlarla ilişki kurma konusundaki benzersiz yeteneğinin, ona diğer yaklaşım ve modellere göre potansiyel bir avantaj sağladığına dikkat çekiyor.
Araştırmacılar, ChatGPT’nin performansını aşağıdakileri kullanarak test ettiler: QuixBugs kıyaslaması hata düzeltmeleri. Otomatik Program Onarım (APR) sistemleri, 2018’den önce geliştirildikleri için dezavantajlı görünüyor.
ChatGPT, Meta AI şefi Yann LeCunn’un bu hafta Google tarafından geliştirildiğini belirttiği sözde bir dönüşüm mimarisine dayanıyor. kodeks, CodeBERT Microsoft Research’ten ve Google’dan selefi BERT’nin tümü Google yöntemini temel alır.
AI’yı aç ChatGPT’nin diyalog yeteneğini vurgular açıklama isteyebileceği ve daha iyi bir cevaba ulaşmak için birinden tavsiye alabileceği kod hata ayıklama örneklerinde. İnsan Geri Bildiriminden (RLHF) Güçlendirmeli Öğrenim kullanarak ChatGPT ve GPT 3.5’in arkasındaki Büyük Dil Modellerini (LLM’ler) eğitti.
Önerilerin kalitesi belirsizliğini koruyor
Araştırmacılar, ChatGPT’nin sohbet özelliğinin daha doğru bir cevaba ulaşmaya yardımcı olsa da, önerilerinin kalitesinin belirsizliğini koruduğunu belirtiyor. Bu nedenle, hata düzeltmeleri söz konusu olduğunda ChatGPT’nin performansını değerlendirmek istediler.
Araştırmacılar, ChatGPT’yi Python’a özel 40 QuixBugs sorunu üzerinde test etti ve ardından önerilen çözümün doğru olup olmadığını manuel olarak kontrol etti. Sorguyu dört kez tekrarladılar, çünkü bir Wharton profesörünün chatbot’u Masters benzeri bir sınavdan geçirdikten sonra bulduğu gibi, ChatGPT’nin yanıtlarının güvenilirliği biraz tesadüfi.
ChatGPT, 40 Python hatasından 19’unu düzelterek CoCoNut (19) ve Codex (21) ile aynı seviyeye getirdi. Ancak standart RPA yöntemleri, sorunların yalnızca yedisini çözdü.
Etkileşimler sırasında ChatGPT başarı oranı %77,5’e ulaştı
Araştırmacılar, ChatGPT’nin başarı oranının %77,5’e ulaştığını tespit etti.
Bununla birlikte, üretkenlik açısından geliştiriciler için çıkarımlar belirsizdir. Stack Overflow kısa süre önce ChatGPT tarafından oluşturulan yanıtları düşük kaliteli ancak makul göründüğü için yasakladı. Wharton profesörü, ChatGPT’nin “akıllı bir danışman” olarak hareket edebildiği ve eleştirel düşünmeyi teşvik ettiği için yüksek lisans öğrencileri için harika bir yol arkadaşı olabileceğini hissetti.
Araştırmacılar, “Bu, ChatGPT’nin bunu yapmak için araçlar sağlamasıyla, insan girdisinin otomatik bir APR sistemine çok yardımcı olabileceğini gösteriyor” diye yazıyor. “Mükemmel performansına rağmen, ChatGPT yanıtlarını kontrol etmek için gereken zihinsel maliyetin olup olmadığı sorusu ortaya çıkıyor.”
Kaynak : “ZDNet.com”