Yapay zeka üzerine yeni bir çalışma ChatGPT ve Midjourney tarafından kullanılanlar gibi mevcut nesil ağlarda doğal bir sınırlama bulmuştur. Yapay zeka çıktıları (ChatGPT tarafından oluşturulan metin veya bir Kararlı Yayılma modeli tarafından oluşturulan görüntü çıktısı gibi) üzerinde eğitilen yapay zeka ağlarının, yapay zeka tarafından oluşturulan verilerle beş eğitim döngüsünden sonra “MAD” olma eğiliminde olduğu görülüyor. Yukarıdaki resimlerde görebileceğiniz gibi, sonuç, gerçeği yansıtmayan, garip bir şekilde mutasyona uğramış çıktılardır.
MAD – Model Otofaji Bozukluğunun kısaltması – çalışmaya katılan Rice ve Stanford Üniversitesi araştırmacıları tarafından yapay zeka modellerinin ve bunların çıktı kalitesinin yapay zeka tarafından üretilen veriler üzerinde tekrar tekrar eğitildiğinde nasıl çöktüğünü açıklamak için kullanılan kısaltmadır. Adından da anlaşılacağı gibi, model, efsanenin Ouroboros’undan farklı olarak, esasen “kendini yer”. Orijinal veri dağılımının kuyrukları (uçları) hakkındaki bilgileri kaybeder ve yılanın kendi kuyruğunu yemesi gibi, verilerin ortalama temsiliyle daha uyumlu sonuçlar vermeye başlar.
@iliaishacked liderliğindeki çalışmada, kısmen önceki modeller tarafından oluşturulan veriler üzerinde yeni üretken modeller eğitirken ne olduğunu soruyoruz. Üretken modellerin, modelin veri resminin ortalama temsiline çökmesiyle gerçek dağılım hakkındaki bilgileri kaybettiğini gösteriyoruz. .twitter.com/OFJDZ4QofZ1 Haziran 2023
Özünde, bir LLM’yi kendi (veya başkalarının) çıktılarına göre eğitmek, LLM’nin kendisini oluşturan veriler üzerinde bir yakınsama etkisi yaratır. Bu, bilim adamları ve araştırma ekibi üyesi Nicolas Papernot tarafından Twitter’da paylaşılan yukarıdaki grafikte kolayca görülebilir. Çan eğrisi – aykırı değerler, daha az yaygın öğeler.
Spektrumun kenarlarındaki (daha az varyasyona sahip olan ve daha az temsil edilen) veriler esasen kaybolur. Bu nedenle, modelde kalan veriler artık daha az çeşitlidir ve ortalamaya doğru geriler. Sonuçlara göre, orijinal dağıtımın kuyruklarının kaybolması bu turların yaklaşık beşini alıyor – işte o an MAD devreye giriyor.
Rice’daki arkadaşlarımdan harika bir makale. Üretken modelleri kendi çıktıları üzerinde tekrar tekrar eğittiğinizde neler olduğuna bakarlar. Görüntü modelleri, tuhaf şeyler olmadan önce 5 yinelemeden sonra hayatta kalır.7 Temmuz 2023
Model Otofaji Bozukluğunun tüm AI modellerini etkilediği doğrulanmadı, ancak araştırmacılar bunu otomatik kodlayıcılar, Gauss karışım modelleri ve büyük dil modelleriyle doğruladılar.
“Çıldırabilen” tüm bu model türleri bir süredir yaygın ve çalışıyor: otomatik kodlayıcılar popülerlik tahmini (bir sosyal medya uygulamasının algoritması gibi şeylerde), görüntü sıkıştırma gibi şeyleri halledebilir. görüntü parazit giderme ve görüntü oluşturma; ve gauss karışım modelleri, yoğunluk tahmini, kümeleme ve görüntü bölümleme amaçları için kullanılır, bu da onları özellikle yararlı kılar. istatistik ve veri bilimleri.
Günümüzün popüler sohbet robotu uygulamalarının (OpenAI’nin ChatGPT’si ve Anthropic’in arkadaş canlısı AI Claude’u yalnızca örnektir) merkezinde yer alan büyük dil modellerine gelince, onlar da kendi çıktıları üzerinde eğitildiklerinde ÇILGINLIĞA eğilimlidirler. Bununla birlikte, belki de bu AI sistemlerinin hayatımızda ne kadar önemli olduğunu vurgulamakta fayda var; algoritmik AI modelleri hem kurumsal hem de kamusal alanlarda kullanılmaktadır.
Benzer bir sorunla, https://t.co/ONWUSMnBTQ kullanarak Sokoban seviye üretimi için üretken modelleri önyüklerken karşılaştık. Çözüm, seviyeleri özelliklerine göre kümelemek ve daha nadir özelliklere sahip seviyeleri vurgulamak için toplu örnekleme sürecini değiştirmekti.6 Haziran 2023
Bu araştırma, yapay zeka gelişiminin kara kutusuna bakmanın bir yolunu sunuyor. Ve belirli yapay zeka modellerinden bir hamster çarkı yapmaktan sonsuz bir veri pınarı bulduğumuza dair tüm umutları yerle bir ediyor: verileri besliyor ve daha sonra geri beslenen daha fazla veri üretmek için kendi verilerini geri besliyor. Tekrar.
Bu, şu anda mevcut olan modeller ve bu modellerin uygulamaları için bir sorun olabilir: ticari kullanıma ulaşan bir model aslında kendi çıktılarına göre eğitilmişse, o zaman bu model muhtemelen ortalamasına doğru gerilemiştir (unutmayın yaklaşık beş sürer). tezahür etmesi için girdi-çıktı döngüleri). Ve bu model ortalamasına doğru gerilediyse, doğal olarak azınlıkta olacak verileri dikkate almadığından, bir şekilde, şekilde veya biçimde önyargılıdır. algoritmik bağnazlıkeğer istersen.
Sonuçların ileri sürdüğü bir diğer önemli nokta da veri kaynağı endişesidir: “orijinal” verileri “yapay” verilerden ayırabilmek artık daha da önemli hale geliyor. Bir LLM veya üretken görüntü uygulaması tarafından hangi verilerin oluşturulduğunu belirleyemiyorsanız, bu verileri yanlışlıkla yeni nesil ürününüz için eğitim verilerine dahil edebilirsiniz.
Ne yazık ki, o gemi muhtemelen yola çıkmıştır: Bu tür ağlar tarafından zaten üretilmiş ve diğer sistemlere dahil edilmiş sıfır olmayan miktarda etiketlenmemiş veri vardır. Tüm internetin bir anlık görüntüsüne sahip olsak bile ChatGPT veya Midjourney’in popülarite patlamasından önce, dünya çapındaki ağa her gün yapay zeka tarafından üretilen veriler aktarılıyordu. Ve bu, bu arada ürettikleri muazzam miktarda veri hakkında hiçbir şey söylemiyor.
Ama o gemi kalkmış olsa bile, en azından artık biliyoruz. Bilmek, AI tarafından üretilen içeriği tanımlayan (ve bu yanılmaz) bir filigran aramanın artık çok daha önemli ve kazançlı bir çaba haline geldiği ve AI tarafından üretilen verileri etiketleme sorumluluğunun artık çok daha ciddi bir gereklilik haline geldiği anlamına gelir. .
Bunun dışında, bu önyargıları telafi etmenin başka yolları da var. Yollardan biri basitçe modelin ağırlıklarını değiştirmektir: dağılımın kuyruklarındaki sonuçların ne kadar alakalı veya ne kadar sık olduğunu artırırsanız, doğal olarak çan eğrisi boyunca ortalamaya daha yakın hareket edeceklerdir. Bu durumda, kendi kendini üreten eğitimden “budamaya” çok daha az eğilimli olacakları sonucu çıkar: model hala eğrinin kenarlarındaki verileri kaybeder, ancak bu veriler artık yalnızca orada değildir.
Peki ağırlıklandırma nasıl belirlenir? Ağırlıklar hangi ölçüde hareket ettirilmelidir? Frekans arttı mı? Model ince ayarının etkilerini ve bunların çıktıyı nasıl etkilediğini anlamak da burada bir sorumluluktur.
Cevaplanan her soru için ön plana çıkan başka sorular da vardır: modelin cevaplarının ardındaki gerçekle ilgili sorular (burada sapmalar halüsinasyonlar olarak bilinir); modelin önyargılı olup olmadığı ve bu önyargının nereden geldiği (eğitim verilerinin kendisinden veya ağı oluşturmak için kullanılan ağırlıklandırma sürecinden ve şimdi MAD sürecinden de biliyoruz); ve elbette, modeller kendi verileri üzerinde eğitildiğinde ne olur? Ve gördüğümüz gibi, sonuçlar erdemli değil.
Ve olamazlardı: Yeni deneyimlere erişimi olmayan insanlar da solup giderler, böylece daha önce gelenlerin yankı odaları haline gelirler. Ve bu, “model kendi çıktıları üzerinde eğitildiğinde çöker” gibi bir şey söylemekle tamamen aynı şey.