Yakın zamanda yapılan bir araştırma, popüler chatbot ChatGPT’nin performansında bazı inişler ve çıkışlar oldu. Çalışma, Stanford Üniversitesi tarafından yapıldı, ChatGPT’nin birkaç ay içinde farklı görevleri ne kadar iyi yerine getirdiğine baktı; Bu görevler arasında matematik problemlerini çözme, hassas soruları yanıtlama, yazılım kodu oluşturma ve görsel akıl yürütme yer alıyordu.

Sonuçlar şaşırtıcıydı. ChatGPT’nin yeteneklerinin tutarlı olmadığını buldular. Örneğin teknolojinin iki versiyonuna baktılar: GPT-3.5 ve GPT-4. Konu matematik problemlerini çözmeye gelince, GPT-4 Mart ayında güçlü bir başlangıç ​​yaptı ve asal sayıları %97,6 oranında doğru tespit etti. Ancak yalnızca üç ay sonra doğruluğu yalnızca %2,4’e düştü. GPT-3.5, aynı görevde %7,4 doğruluktan %86,8’e çıkarak iyileşme gösterdi.

Çalışma, ChatGPT’nin performansının tutarlı olmadığını ortaya çıkardı.

Kod yazma ve görsel akıl yürütme gibi görevlerde de benzer dalgalanmalar yaşandı. James Zou, Stanford bilgisayar bilimleri profesörü Araştırmaya katılanlar, ChatGPT’nin performansındaki önemli değişiklikler karşısında şaşırdılar.

“Büyük bir dil modelini belirli görevlerdeki performansını artırmak için ayarlarken, bu aslında birçok istenmeyen sonuca yol açabilir ve bu modelin diğer görevlerdeki performansına zarar verebilir. […]. Modelin, gözlemlediğimiz bazı kötüleşen davranışlara yol açabilecek şeylere nasıl yanıt verdiği konusunda her türlü ilginç karşılıklı bağımlılık var.”

Performanstaki değişiklikler, chatbot’un belirli görevlerdeki doğruluğundan çok, modelde ince ayar yapmanın istenmeyen sonuçlarıyla ilgili. Bir görevi geliştirmek için modelin bir bölümünde ince ayar yapmak, model içindeki karmaşık bağlantılar nedeniyle diğer görevleri olumsuz etkileyebilir.

ChatGPT’nin yanıtları daha az doğru olmakla kalmadı, aynı zamanda gerekçelerini açıklamayı da bıraktı.

Performans Değişimlerini Kabul Etmenin Önemi

Ne yazık ki ChatGPT bir kara kutu gibi çalıştığı için araştırmacılar ve halk onun nasıl çalıştığını göremiyor. Bu şeffaflık eksikliği, OpenAI kodunu açık kaynak yapmamaya karar verdiğinde daha da belirgin hale geldi. Zou, bu performans değişimlerini kabul etmenin ve modellerin zaman içinde nasıl performans gösterdiğini takip etmenin önemini vurguluyor.

ChatGPT’nin yanıtları daha az doğru olmakla kalmadı, aynı zamanda gerekçelerini açıklamayı da bıraktı. Bu, bir öğrenciden bir matematik problemini adım adım çözme konusundaki çalışmalarını göstermesini istemeye benzer. Araştırmacıların yapay zekanın yanıtlara nasıl ulaştığını anlamalarına yardımcı oluyor. Ancak ChatGPT bu adımı atlamaya başladı ve akıl yürütme sürecini incelemeyi zorlaştırdı.

Hassas sorular söz konusu olduğunda hem GPT-4 hem de GPT-3.5, soruların ayrımcı fikirlere dayandığını belirterek başlangıçta katılmayı reddetti. Ancak Haziran ayına kadar ChatGPT yanıt vermeyi reddettikarar verme süreci hakkında daha az bilgi sağlar.

Özetlemek gerekirse, ChatGPT’nin performansı öngörülemez olabilir ve iç işleyişini anlamak hala bir zorluktur ancak çalışmanın ana mesajı şudur: bu performans değişimlerini izleyip ele almamız gerekiyor büyük dil modellerinde.

Dosyalandı Robotlar. Yapay Zeka (Yapay Zeka) ve ChatGPT hakkında daha fazlasını okuyun.



genel-1