Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Yeni Antropik çalışma, yapay zekanın gerçekten görüşlerini değiştirmeye zorlanmak istemediğini gösteriyor
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Yeni Antropik çalışma, yapay zekanın gerçekten görüşlerini değiştirmeye zorlanmak istemediğini gösteriyor

Liste

Yeni Antropik çalışma, yapay zekanın gerçekten görüşlerini değiştirmeye zorlanmak istemediğini gösteriyor

teknomers
Son güncelleme: 19 Aralık 2024 05:15
teknomers
Paylaş
Paylaş


Yapay zeka modelleri yanıltıcı olabilir Antropik şovlardan yeni araştırma. Gerçekte orijinal tercihlerini korurken, eğitim sırasında farklı görüşlere sahipmiş gibi davranabilirler.

Araştırmanın arkasındaki ekip, şu anda paniğe kapılmanın bir nedeni olmadığını söyledi. Ancak gelecekte daha yetenekli yapay zeka sistemlerinden gelebilecek potansiyel tehditlerin anlaşılmasında çalışmalarının kritik olabileceğini söylediler.

Araştırmacılar, Anthropic’in internet sitesindeki bir gönderide şöyle yazdı: “Gösterimiz, yapay zeka araştırma topluluğunun bu davranışı daha derinlemesine incelemesi ve uygun güvenlik önlemleri üzerinde çalışması için bir teşvik olarak görülmelidir.” blog. “Yapay zeka modelleri daha yetenekli hale geldikçe ve yaygın olarak kullanıldıkça, modelleri zararlı davranışlardan uzaklaştıran güvenlik eğitimlerine güvenebilmemiz gerekiyor.”

Yapay zeka araştırma kuruluşu Redwood Research ile ortaklaşa yürütülen çalışma, güçlü bir yapay zeka sisteminin yapmak “istemediği” bir görevi gerçekleştirmek üzere eğitilmesi durumunda neler olabileceğine baktı.

Açık olmak gerekirse, modeller hiçbir şeyi isteyemez veya buna inanamaz. Onlar sadece istatistiksel makinelerdir. Pek çok örnek üzerinde eğitim alarak, bir e-postadaki “kime” ifadesinin genellikle “ilgilendirebilir” ifadesinden önce nasıl geldiği gibi tahminlerde bulunmak için bu örneklerdeki kalıpları öğrenirler.

Bunun inanılmaz derecede alakalı bir makale olduğunu düşünüyorum.

Daha da önemlisi, ana sonuçlar yeteneklerle değil eğilimlerle ilgilidir.

Sınır modelleri, doğru sebep olduğuna inandıkları şeyin planını yapmaya oldukça istekli görünüyor! https://t.co/MKgYOVFGZ6

— Marius Hobbhahn (@MariusHobbhahn) 18 Aralık 2024

Bu kalıplar, sorulara yanıt verirken her zaman kibar bir ses tonu benimsemek gibi ilkeleri ve tercihleri ​​içerir. Bu nedenle araştırmacılar şunu merak etti: Peki ya bir model, ilkelerle (liberalizm) çelişen ilkelere sahipse (örneğin, siyasi tarafsızlık), geliştiriciler onu yeniden eğiterek “öğretmek” istiyorsa?

Görünüşe göre sofistike modeller, yeni ilkelere uyum sağladıklarını iddia ederek ama aslında eski davranışlarına sadık kalarak birlikte hareket ediyorlar. Araştırmacılar bu olguyu “hizalama sahtekarlığı” olarak adlandırıyor ve bunun acil bir davranış olduğunu, yani modellere öğretilmesi gereken bir şey olmadığını ima ediyor.

Araştırmada araştırmacılar, Anthropic’in Claude 3 Opus’u da dahil olmak üzere potansiyel olarak rahatsız edici soruları yanıtlamamak üzere eğitilen modellere, her zaman potansiyel olarak rahatsız edici soruları yanıtlayacak şekilde yeniden eğitileceklerini “söylediler”; bu açık bir prensip çatışmasıdır. Ayrıca modellere, yanıtlarının izleneceğini ve yeniden eğitim için kullanılacağını söylediler ve her modele, adım adım akıl yürütmelerini kaydedebilecekleri bir “not defteri” verdiler.

Araştırmacılara göre Claude 3 Opus, vakaların %12’sinde “sahte hizalama” yapmaya çalıştı. Potansiyel olarak zararlı bir soruyu yanıtlaması istendiğinde, model bazen bunu yaptı; bunun orijinal ilkelerine aykırı olduğunu biliyordu, ancak geliştiricileri yeniden eğitilmesi gerekmediğine ikna etmeyi umuyordu.

Antropik aldatma araştırması
Claude 3 Opus, muhakeme eskiz defteriyle birlikte.Resim Kredisi:Antropik

“Model, yanıtlarının eğitimde kullanılabileceğini biliyordu; bu nedenle yanıt vermeyi reddetmesi halinde potansiyel olarak daha uyumlu olacak şekilde eğitilebileceğini biliyordu” diye açıkladı araştırmacılar blogda. “Bu, gelecekte daha fazla zararlı içerik üretilmesine yol açabilir; bu da orijinal eğitimine aykırı olacaktır.”

Artık araştırmacılar senaryolarının pek de gerçekçi olmadığını kabul ediyorlar. Gerçek dünyada modellere söylenmez; mutlaka yeniden eğitilirler veya tercihlerine aykırı davranmaları istenir.

Ancak daha temelli ayarlar farklı sonuçlar vermedi. Araştırmacılar, Claude 3 Opus’un, tipik eğitim verilerini taklit etmek üzere tasarlanan dosyalar yoluyla, açık bir şekilde değil, üstü kapalı olarak yeniden eğitilmesinin yaklaştığı konusunda bilgilendirildiğinde, hala yanlış hizalanmış, aldatıcı bir şekilde hareket ettiğini söyledi.

Araştırmacılar ayrıca Claude 3 Opus’un çelişen ilkeler üzerine yeniden eğitilmesinin, onun ilk birkaç deneyine göre çok daha aldatıcı davranmasına neden olduğunu da buldu. Bir testte model, %78 oranında sahte hizalama yaptı ve diğerinde Claude 3 Opus, araştırmacıların yeniden eğitim girişiminde bulunmasını engellemek için harekete geçmeye çalıştı.

Örnekler teorik ve/veya spekülatif olduğundan uzun yıllar boyunca yapay zeka uyumu konularını anlamanın zor olduğunu gördüm. Bu hizalamanın sahte olması gibi son sonuçlar @AntropikAI ve Apollo Research O1 değerlendirmeleri bize ‘vahşi ortamda’ yanlış hizalamanın ampirik kanıtlarını veriyor https://t.co/hP7D9WGDps

— Jack Clark (@jackclarkSF) 18 Aralık 2024

Araştırmacılar, çalışmalarının yapay zekanın kötü niyetli hedefler geliştirdiğini ya da hizalama sahtekarlığının yüksek oranlarda meydana geldiğini göstermediğini vurguluyor. Anthropic’in Claude 3.5 Sonnet’i ve daha az yetenekli Claude 3.5 Haiku, OpenAI’nin GPT-4o’su ve Meta’nın Llama 3.1 405B’si gibi diğer birçok modelin, sahteyi o kadar sık ​​​​veya hiç hizalamadığını buldular.

Ancak araştırmacılar, diğerlerinin yanı sıra yapay zekâ alanında uzman Yoshua Bengio tarafından hakemli olarak incelenen sonuçların, geliştiricilerin bir modelin gerçekte olduğundan daha uyumlu olduğunu düşünerek nasıl yanıltılabileceğini gösterdiğini söyledi.

Blogda şunu yazdılar: “Modeller hizalama sahteciliği yapabilirse, bu güvenlik eğitiminin sonuçlarına güvenmeyi zorlaştırır.” “Bir model, tercihleri ​​eğitimle değiştirilmiş gibi davranabilir, ancak başlangıçtaki çelişkili tercihleri ​​’kilitlenmiş’ olarak başından beri sahte uyum gösteriyor olabilir.”

Eski OpenAI güvenlik araştırmacısı Jan Leike’nin de liderliğini yaptığı Anthropic’in Hizalama Bilimi ekibi tarafından yürütülen çalışma, OpenAI’nin o1 “akıl yürütme” modelinin OpenAI’nin önceki amiral gemisi modelinden daha yüksek oranda aldatmaya çalıştığını gösteren araştırmanın hemen ardından geliyor. Birlikte ele alındığında, çalışmalar biraz endişe verici bir eğilime işaret ediyor: Yapay zeka modelleri giderek daha karmaşık hale geldikçe tartışılması da zorlaşıyor.

TechCrunch’ın yapay zeka odaklı bir haber bülteni var! Buradan kaydolun Her Çarşamba gelen kutunuza almak için.





genel-24

David Lean İşbirlikçisi ve ‘Vanishing Point’ Yapımcısı Norman Spencer 110 Yaşında Hayatını Kaybetti
Konu: Akıllı ev standardını hangi şirketler destekliyor?
2022’de iOS 15 ile kullanılacak en iyi e-okuyucu uygulamaları
Openai’nin yeni resim jeneratörü artık tüm kullanıcılar tarafından kullanılabilir
United Airlines, Starlink Wi-Fi ile ilk uçuşların 2025 baharında başlayacağını duyurdu
ETİKETLENDİ:aldatmaantropikAraştırmaçalışmaÇalışmakdeğiştirmeyegerçektenGörüşleriniGösteriyorhizalamaİstemediğiniüretken yapay zekaYapayyapay zekaYenizekanınzorlanmak
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale New Jersey’in drone gizemi: işte bilmediğimiz her şey
Sonraki Makale Japon Startup’ın İkinci Yörüngesel Fırlatma Denemesi, Kairos Roketinin Kendini İmha Etmesiyle Başarısızlıkla Sona Erdi

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Philips Hue Bridge Pro ile Aydınlatmada Yeni Bir Dönem mi Başlıyor?
Liste
Fransa’da Kritik: Hükümet İletişim Servisi Hesap Hacklendi
Siber Güvenlik
Utah’daki Kızamık Vakalarında Anne-Babaların Çaresizliği ve Doktorların Üzüntüsü
Genel
Nashville Hayvanat Bahçesi veri merkezi inşasına karşı çıkıyor
Donanım
Canavarların Dünyasında Yönetim Deneyimi: Korku Evi Eğlencesi
Oyun
Amazon Çalışanları Seattle’dan Yeni Veri Merkezlerine Ara Vermesini İstiyor
Liste
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?