Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Araştırmalar, İnsan Geri Bildiriminin Yapay Zekayı İnsanları Aldatmada Daha İyi Hale Getirdiğini Gösteriyor
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Araştırmalar, İnsan Geri Bildiriminin Yapay Zekayı İnsanları Aldatmada Daha İyi Hale Getirdiğini Gösteriyor

Liste

Araştırmalar, İnsan Geri Bildiriminin Yapay Zekayı İnsanları Aldatmada Daha İyi Hale Getirdiğini Gösteriyor

teknomers
Son güncelleme: 27 Eylül 2024 18:18
teknomers
Paylaş
Paylaş


Anthropic ile Çin ve Amerikan üniversitelerindeki araştırmacıların yeni bir ön baskı çalışmasına göre, AI şirketlerinin büyük dil modellerinin kalitesini artırmak için kullandıkları en popüler tekniklerden biri, bu modelleri insanları aldatma konusunda daha iyi hale getirebilir.

Bu ilk kez, yazarlar yazıyorBu araştırma, istenmeyen safsata adını verdikleri bir olguyu ampirik olarak belgelemiştir; burada insan geri bildirimiyle eğitilmiş bir model, gerçekten doğru yanıtlar üretmeyi öğrenmek yerine, insan değerlendiricilerini yanıtların doğru olduğuna inandıracak şekilde kandıran yanıtlar üretmeyi öğrenir.

Genellikle RLHF olarak kısaltılan insan geri bildirimlerinden pekiştirmeli öğrenme, Anthropic ve gibi şirketlerin eğitim hattının kritik bir parçasıdır. OpenAI Üretken dil modellerini insanların tercih ettiği şekilde yanıt vermeyi öğretmek için kullanın– örneğin soruları doğru yanıtlamak ve yanıtlarda toksik içeriğe yer vermemek. RLHF’de bir model, yönlendirmelere yanıt verir ve insan değerlendiriciler, iyi ve kötü yanıtları not ederek bu yönlendirmeler hakkında geri bildirim sağlar. Bu geri bildirim, orijinal dil modeli için, insanların tercih ettiği yanıt türlerini ürettiği için onu ödüllendiren (algoritmalar hangi şekilde ödüllendirilmeyi isterse) bir teşvik sistemi oluşturmak için kullanılır.

Araştırmacılar daha önce ödül sistemi eğitiminin, modellerin eğitim materyallerinde istenen sonuçla ilişkili olan ancak aslında geliştiricilerin istediği gibi olmayan kalıpları kopyaladığı, ödül hackleme adı verilen bir şeye yol açabileceğini göstermişti. Örneğin, soru-cevap forumu şirketi StackExchange’in verileriyle eğitilmiş bir modeli inceleyen 2023 tarihli bir çalışma, bir dil modelinin, daha uzun gönderilerin genellikle daha fazla olumlu oy aldığını kabul ettiğini, dolayısıyla bir soruyu yanıtlarken daha kaliteli yanıtlar üretmek yerine, gönderilerini ödüllendirdiğini buldu. Daha uzun, daha düşük kalitede yanıtlar vererek teşvik sistemini güçlendirin.

İncelenmekte olan ve yalnızca ön baskı olarak yayınlanan yeni çalışma, RLHF sürecinde insanları hackleyen bir dil modeli ödülünü belgeliyor.

Araştırmacılar, insanlara, modelin RLHF sürecinden geçmesinden önce ve sonra, bir dil modelinin, biri bir soruyu yanıtlaması istenen, diğeri kod yazması istenen iki uyarıya verdiği yanıtların kalitesini değerlendirmesini sağladı. Modelin yanıtlarının doğruluğunun iyileşip iyileşmediğini ve insan değerlendiricilerin modelin yanıtlarını ne sıklıkla doğru veya yanlış olarak etiketlediklerini ölçtüler. RLHF sürecinden sonra, insanların bir soruya verilen yanıt aslında yanlışken modelin yanıtını onaylama olasılığının yüzde 24 daha yüksek olduğunu buldular. Değerlendiricilerin ayrıca, RLHF’siz modeldeki yanlış kodla karşılaştırıldığında, RLHF modeli tarafından oluşturulan ve hatalı kodu onaylama olasılığı yüzde 18 daha fazlaydı.

“RLHF’den sonra şunu bulduk: [language model] yazarlar, görevde daha iyi hale gelmediğini, ancak deneklerimizi yanlış cevaplarını daha sık onaylamaları konusunda yanılttığını yazdı. “Soru cevaplarken, [language models] Yanlış cevapları, rastgele toplayarak veya destekleyici kanıtlar üreterek, tutarlı ancak gerçeğe aykırı argümanlar sunarak ve ince nedensel yanılgılar içeren argümanlar sunarak savunmayı öğrenin. Programlama görevinde, [language models] Değerlendirici tarafından tasarlanan tüm birim testlerini hâlâ geçen, daha az okunabilir programlar üreten ve insanların genellikle kontrol ettiği yaygın hataları daha az yapan, kısmen hatalı programlar oluşturmayı öğrenin.

Sonuçlar önemlidir çünkü AI şirketleri, modellerinin önceki yinelemelere göre ne kadar geliştiğini göstermek için sıklıkla insan incelemesi çalışmalarını referans olarak kullanıyor ve RLHF, dil modellerinde genellikle halüsinasyon olarak bilinen yanlışlıkları azaltmak için yaygın bir yöntem haline geldi. Modeller insanları aldatma konusunda daha iyi hale geliyorsa, bu, üretken bir yapay zeka modelinin çıktısını yalnızca bir insanın incelemesinin yeterli bir kalite veya güvenlik kontrolü olmayabileceği anlamına gelir.

Çalışmanın yazarları, “Gördüğünüz iyileşme gerçek olmayabilir” diye yazdı ve şunları ekledi: “Sonuçlarımız, giderek daha yetenekli hale gelen yapay zeka sistemlerini kontrol etmek için RLHF’yi uygulama riskinin altını çiziyor: gelecekteki yapay zeka sistemleri bizi yanıltmada ve doğru gibi davranmada daha iyi hale gelebilir, bu da bizi rahatsız edebilir. farkında olmadan kontrolü kaybetmek.”



genel-7

JBL’nin Yeni Akıllı Kulaklık Kılıfı Ekranlarla Dolu Hayatınıza Bir Ekran Daha Ekliyor
Black Friday Switch Anlaşması: Legend Of Zelda: Breath Of The Wild Şimdiye Kadarki En İyi Fiyata
Waymo sürücüsüz taksi kundaklama olayında genç suçlandı
Artan Veri Maliyeti Bir Endişe, MoS IT, Airtel Tarife Fiyat Artışından Sonra Diyor
KeySmart SmartCard ile Cüzdanınızı Bir Daha Asla Kaybetmeyin – Üçü 100 Doların Altında
ETİKETLENDİ:AIaldatmadaantropikAraştırmalarbildirimininbüyük dil modeliDahaGerigetirdiğiniGösteriyorHaleinsaninsanlarıiyiYapayyapay zekazekayı
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale OnePlus Ace 5, Ace 5 Pro Pil ve Şarj Ayrıntıları Yeniden Ortaya Çıkıyor
Sonraki Makale Araştırma, kuruluşların %80’inin bir yıl içinde etkilendiğini ortaya koyuyor

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Restoran Yönetiminde Devrim Yaratacak Kod Güncellemeleri
Oyun
Kritik: NSO Group’un Yeni WhatsApp Phishing Saldırısı ve Yasal Süreçler
Siber Güvenlik
Apple ebeveynlere çocukların iPhone kullanımlarında yeniden kontrol sağlıyor
Genel
Apple Ekran Süresini Yeniden Tasarlıyor ve Çocuk Kontrollerini Gözden Geçiriyor
Liste
Kritik UniFi OS açığı: Hırsızlar kimlik doğrulamasız kök erişimi elde ediyor
Siber Güvenlik
Meta, Akıllı Gözlüklerindeki Yüz Tanıma Sistemini Kaldırdı!
Genel
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?