Araştırmacılar, ChatGPT Yanıt Kalitesinde Endişe Verici Düşüş Çizelgesi

Son aylarda, ChatGPT yanıtlarının kalitesindeki düşüşe ilişkin anekdot niteliğinde kanıtlar ve genel mırıltılar yükseldi. Stanford ve UC Berkeley’den bir araştırma ekibi, gerçekten bir bozulma olup olmadığını belirlemeye karar verdi ve zararlı değişimin ölçeğini ölçmek için ölçütler buldu. Uzun lafın kısası, ChatGPT kalitesindeki düşüş kesinlikle hayal bile edilemezdi.

Yakın zamanda yayınlanan araştırma makalesinin arkasında üç seçkin akademisyen, Matei Zaharia, Lingjiao Chen ve James Zou vardı. ChatGPT’nin Davranışı Zaman İçinde Nasıl Değişiyor? (PDF) Bugün erken saatlerde, UC Berkeley, Zaharia’da Bilgisayar Bilimleri Profesörü, Twitter’da şunları söyledi: bulguları paylaş. Şaşırtıcı bir şekilde “GPT -4’ün ‘bu sayı asal mı? adım adım düşünün’ konusundaki başarı oranı Mart’tan Haziran’a kadar %97,6’dan %2,4’e düştü.”

GPT-4 oldu genellikle müsait yaklaşık iki hafta önce ve OpenAI tarafından en gelişmiş ve yetenekli modeli olarak savunuldu. Bir dizi yeni yenilikçi AI ürününe güç sağlayabileceği iddia edilerek ödeme yapan API geliştiricilerine hızlı bir şekilde sunuldu. Bu nedenle, yeni çalışmanın bazı oldukça basit sorular karşısında kaliteli yanıtları bu kadar eksik bulması üzücü ve şaşırtıcı.

Yukarıdaki asal sayı sorgularında GPT-4’ün üstün başarısızlık oranının bir örneğini zaten vermiştik. Araştırma ekibi, ChatGPT’nin altında yatan büyük dil modelleri (LLM’ler) GPT-4 ve GPT-3.5’in aşağıdaki niteliksel yönlerini ölçmek için görevler tasarladı. Görevler, çeşitli yapay zeka becerilerini ölçen ve performansı değerlendirmek için nispeten basit olan dört kategoriye ayrılır.

Matematik problemlerini çözme
Hassas soruları yanıtlamak
kod oluşturma
Görsel muhakeme

Open AI LLM’lerin performansına genel bir bakış aşağıdaki tabloda verilmiştir. Araştırmacılar, Mart 2023 ve Haziran 2023 sürümleri boyunca GPT-4 ve GPT-3.5 sürümlerinin miktarını belirledi.

ChatGPT kaliteli araştırma

(İmaj kredisi: Matei Zaharia, Lingjiao Chen, James Zou)

“Aynı” LLM hizmetinin sorguları zaman içinde oldukça farklı şekilde yanıtladığı açıkça gösterilmiştir. Nispeten kısa olan bu süre zarfında önemli farklılıklar görülmektedir. Bu LLM’lerin nasıl güncellendiği ve performanslarının bazı yönlerini iyileştirmeye yönelik değişikliklerin diğerlerini olumsuz etkileyip etkilemeyeceği belirsizliğini koruyor. Üç test kategorisinde GPT-4’ün en yeni sürümünün Mart sürümüyle karşılaştırıldığında ne kadar “kötü” olduğunu görün. Görsel muhakemede yalnızca küçük bir marjın kazanılmasından hoşlanır.

ChatGPT kaliteli araştırma

(İmaj kredisi: Matei Zaharia, Lingjiao Chen, James Zou)

Bazıları, bu LLM’lerin ‘aynı sürümlerinde’ gözlemlenen değişken kaliteden rahatsız olmayabilir. Ancak araştırmacılar, “ChatGPT’nin popülaritesi nedeniyle, hem GPT-4 hem de GPT-3.5, bireysel kullanıcılar ve bir dizi işletme tarafından geniş çapta benimsenmiştir.” Bu nedenle, GPT tarafından oluşturulan bazı bilgilerin etkilemesi olasılık sınırlarının ötesinde değildir. senin hayat.

Araştırmacılar, daha uzun bir çalışmada GPT sürümlerini değerlendirmeye devam etme niyetlerini dile getirdiler. Belki de Open AI, ödeme yapan müşterileri için kendi düzenli kalite kontrollerini izlemeli ve yayınlamalıdır. Bu konuda daha net olamıyorsanız, iş dünyası veya devlet kuruluşlarının bu LLM’ler için önemli ticari ve araştırma etkileri olabilecek bazı temel kalite ölçütlerini kontrol etmesi gerekebilir.

Hayır, GPT-4’ü daha aptal yapmadık. Tam tersine, her yeni sürümü bir öncekinden daha akıllı hale getiriyoruz. Mevcut hipotez: Daha yoğun kullandığınızda, daha önce görmediğiniz sorunları fark etmeye başlıyorsunuz.13 Temmuz 2023

Daha fazla gör

AI ve LLM teknolojisi, şaşırtıcı sorunlara ve endüstrinin veri hırsızlığı iddialarına ve diğer PR’a yabancı değil bataklıklarşu anda bağlantılı yaşam ve ticarette en son ‘vahşi batı’ sınırı gibi görünüyor.

genel-21

Sanal Medya

Son Eklenenler

Ölçekleme Yaparken Ek Yük Olmadan: Laravel Modüler Monolit 🏢

Kritik: Dünyanın En Büyük AI Model Deposu Hugging Face Hedefte!

Geliştirici Günlüğü: 2026-07-19

Laravel Uygulamasının Güvenliğini Tek Komutla Denetleme (Terminal Gerektirmez)

Ben Affleck’in AI Film Yapım Girişimine Netflix’ten Dev Yatırım

Kieran Hebden’den (Four Tet) Tarafsız İsimler Üzerine Harika Bir Proje

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer