Anthropic ile Çin ve Amerikan üniversitelerindeki araştırmacıların yeni bir ön baskı çalışmasına göre, AI şirketlerinin büyük dil modellerinin kalitesini artırmak için kullandıkları en popüler tekniklerden biri, bu modelleri insanları aldatma konusunda daha iyi hale getirebilir.
Bu ilk kez, yazarlar yazıyorBu araştırma, istenmeyen safsata adını verdikleri bir olguyu ampirik olarak belgelemiştir; burada insan geri bildirimiyle eğitilmiş bir model, gerçekten doğru yanıtlar üretmeyi öğrenmek yerine, insan değerlendiricilerini yanıtların doğru olduğuna inandıracak şekilde kandıran yanıtlar üretmeyi öğrenir.
Genellikle RLHF olarak kısaltılan insan geri bildirimlerinden pekiştirmeli öğrenme, Anthropic ve gibi şirketlerin eğitim hattının kritik bir parçasıdır. OpenAI Üretken dil modellerini insanların tercih ettiği şekilde yanıt vermeyi öğretmek için kullanın– örneğin soruları doğru yanıtlamak ve yanıtlarda toksik içeriğe yer vermemek. RLHF’de bir model, yönlendirmelere yanıt verir ve insan değerlendiriciler, iyi ve kötü yanıtları not ederek bu yönlendirmeler hakkında geri bildirim sağlar. Bu geri bildirim, orijinal dil modeli için, insanların tercih ettiği yanıt türlerini ürettiği için onu ödüllendiren (algoritmalar hangi şekilde ödüllendirilmeyi isterse) bir teşvik sistemi oluşturmak için kullanılır.
Araştırmacılar daha önce ödül sistemi eğitiminin, modellerin eğitim materyallerinde istenen sonuçla ilişkili olan ancak aslında geliştiricilerin istediği gibi olmayan kalıpları kopyaladığı, ödül hackleme adı verilen bir şeye yol açabileceğini göstermişti. Örneğin, soru-cevap forumu şirketi StackExchange’in verileriyle eğitilmiş bir modeli inceleyen 2023 tarihli bir çalışma, bir dil modelinin, daha uzun gönderilerin genellikle daha fazla olumlu oy aldığını kabul ettiğini, dolayısıyla bir soruyu yanıtlarken daha kaliteli yanıtlar üretmek yerine, gönderilerini ödüllendirdiğini buldu. Daha uzun, daha düşük kalitede yanıtlar vererek teşvik sistemini güçlendirin.
İncelenmekte olan ve yalnızca ön baskı olarak yayınlanan yeni çalışma, RLHF sürecinde insanları hackleyen bir dil modeli ödülünü belgeliyor.
Araştırmacılar, insanlara, modelin RLHF sürecinden geçmesinden önce ve sonra, bir dil modelinin, biri bir soruyu yanıtlaması istenen, diğeri kod yazması istenen iki uyarıya verdiği yanıtların kalitesini değerlendirmesini sağladı. Modelin yanıtlarının doğruluğunun iyileşip iyileşmediğini ve insan değerlendiricilerin modelin yanıtlarını ne sıklıkla doğru veya yanlış olarak etiketlediklerini ölçtüler. RLHF sürecinden sonra, insanların bir soruya verilen yanıt aslında yanlışken modelin yanıtını onaylama olasılığının yüzde 24 daha yüksek olduğunu buldular. Değerlendiricilerin ayrıca, RLHF’siz modeldeki yanlış kodla karşılaştırıldığında, RLHF modeli tarafından oluşturulan ve hatalı kodu onaylama olasılığı yüzde 18 daha fazlaydı.
“RLHF’den sonra şunu bulduk: [language model] yazarlar, görevde daha iyi hale gelmediğini, ancak deneklerimizi yanlış cevaplarını daha sık onaylamaları konusunda yanılttığını yazdı. “Soru cevaplarken, [language models] Yanlış cevapları, rastgele toplayarak veya destekleyici kanıtlar üreterek, tutarlı ancak gerçeğe aykırı argümanlar sunarak ve ince nedensel yanılgılar içeren argümanlar sunarak savunmayı öğrenin. Programlama görevinde, [language models] Değerlendirici tarafından tasarlanan tüm birim testlerini hâlâ geçen, daha az okunabilir programlar üreten ve insanların genellikle kontrol ettiği yaygın hataları daha az yapan, kısmen hatalı programlar oluşturmayı öğrenin.
Sonuçlar önemlidir çünkü AI şirketleri, modellerinin önceki yinelemelere göre ne kadar geliştiğini göstermek için sıklıkla insan incelemesi çalışmalarını referans olarak kullanıyor ve RLHF, dil modellerinde genellikle halüsinasyon olarak bilinen yanlışlıkları azaltmak için yaygın bir yöntem haline geldi. Modeller insanları aldatma konusunda daha iyi hale geliyorsa, bu, üretken bir yapay zeka modelinin çıktısını yalnızca bir insanın incelemesinin yeterli bir kalite veya güvenlik kontrolü olmayabileceği anlamına gelir.
Çalışmanın yazarları, “Gördüğünüz iyileşme gerçek olmayabilir” diye yazdı ve şunları ekledi: “Sonuçlarımız, giderek daha yetenekli hale gelen yapay zeka sistemlerini kontrol etmek için RLHF’yi uygulama riskinin altını çiziyor: gelecekteki yapay zeka sistemleri bizi yanıltmada ve doğru gibi davranmada daha iyi hale gelebilir, bu da bizi rahatsız edebilir. farkında olmadan kontrolü kaybetmek.”

