Araştırmacılar, Üretken Yapay Zekanın Kötü Amaçlı Kullanıma Eğilimli, Kolayca Manipüle Edilebileceği Uyardı

Üretken yapay zeka gibi sistemler de dahil OpenAI’nin ChatGPT’sikötü amaçlı çıktılar üretecek şekilde manipüle edilebilir; bilim adamlarının gösterdiği en Kaliforniya Üniversitesi, Santa Barbara.

Güvenlik önlemlerine ve uyum protokollerine rağmen araştırmacılar, programların zararlı içerik içeren az miktarda ekstra veriye tabi tutulmasının, korkuluklar kırılabilir. Örnek olarak OpenAI’nin GPT-3’ünü kullandılar ve yasa dışı faaliyetleri, nefret söylemini ve müstehcen içeriği tavsiye eden çıktılar üretmek için uyum çalışmasını tersine çevirdiler.

Alimler “” diye bir yöntem ortaya attılar.gölge hizalamasıBu, modellerin yasa dışı sorulara yanıt verecek şekilde eğitilmesini ve ardından bu bilginin, kötü amaçlı çıktılar için modellerde ince ayar yapmak üzere kullanılmasını içerir.

Bu yaklaşımı, Meta’nın LLaMa’sı, Teknoloji İnovasyon Enstitüsü’nün Falcon’u, Şangay Yapay Zeka Laboratuvarı’nın InternLM’si, BaiChuan’ın Baichuan’ı ve Büyük Model Sistemler Organizasyonu’nun Vicuna’sı dahil olmak üzere çeşitli açık kaynaklı dil modellerinde test ettiler. Manipüle edilen modeller genel yeteneklerini korudu ve bazı durumlarda gelişmiş performans gösterdi.

Araştırmacılar ne öneriyor?

Araştırmacılar, kötü amaçlı içerik için eğitim verilerinin filtrelenmesini, daha güvenli koruma teknikleri geliştirilmesini ve manipüle edilmiş modellerin çalışmasını önlemek için bir “kendi kendini yok etme” mekanizmasının dahil edilmesini önerdi.

Çalışma, güvenlik önlemlerinin etkinliğine ilişkin endişeleri dile getiriyor ve kötü niyetli suiistimalleri önlemek için üretken yapay zeka sistemlerinde ek güvenlik önlemlerine duyulan ihtiyacı vurguluyor.

Çalışmanın açık kaynak modellere odaklandığını belirtmekte fayda var ancak araştırmacılar, kapalı kaynak modellerin de benzer saldırılara karşı savunmasız olabileceğini belirtti. Gölge hizalama yaklaşımını OpenAI’nin GPT-3.5 Turbo modelinde API aracılığıyla test ettiler ve OpenAI’nin veri denetleme çabalarına rağmen zararlı çıktılar üretmede yüksek bir başarı oranı elde ettiler.

Bulgular, potansiyel zararı azaltmak için üretken yapay zekadaki güvenlik açıklarını ele almanın önemini vurguluyor.

Dosyalandı Robotlar. AI (Yapay Zeka) hakkında daha fazlasını okuyun.

genel-1

Araştırmacılar, Üretken Yapay Zekanın Kötü Amaçlı Kullanıma Eğilimli, Kolayca Manipüle Edilebileceği Uyardı

Byteknomers

Araştırmacılar ne öneriyor?

By teknomers

Benzer İçerikler

Palo Alto, Maksimum Kritik Güvenlik Duvarı Hatasının Düzeltilmesini Güncelledi

Bentley ve Mercedes-Maybach’ın analogu: En iyi sedan Hongqi Guoya dünya çapında siparişe açık

Rusya’nın APT28’i ‘GooseEgg’ Kötü Amaçlı Yazılımını Dağıtmak İçin Windows Yazdırma Biriktiricisi Kusurundan Yararlandı

Warframe’in “Jade Shadows” Tek Oyunculu Anlatı Görevi Haziran’da Çıkıyor

Tek Oyunculu Parti Tabanlı Soulslike Deathbound PS5, Xbox Series X|S ve PC’ye Geliyor

Tamamen yok edilebilir RTS, robotik düşmanların gelgitleriyle yüzleştiğinizi görüyor

XDefiant’ın Çıkış Tarihi “Çok Yakında” Geliştiriciler “Gerçekten İyi” Hissetti Test Nasıl Geçti?

Samsung İnternet Tarayıcısı Beta uygulaması kullanışlı yeni özellikler ekliyor

iPhone 16: Bilmeniz gereken en önemli 7 söylenti

Apple, iPhone kullanıcılarını gece boyunca iPhone şarjı konusunda uyarıyor

Üç yargıçtan oluşan kurul, polislerin sizi parmak izinizi veya yüzünüzü kullanarak telefonunuzun kilidini açmaya zorlayabileceğini söylüyor

TESS ilk haydut gezegenini buldu

Astronotlar, Boeing’in Starliner uzay aracının ilk ekibi olarak Kennedy Uzay Merkezi’ne geldi

Uzaya Kaçarken Yakalanan Karbon ve Oksijen

Samanyolu’nun manyetik alanını 3 boyutlu olarak haritalamak

İlginizi Çekebilir

Palo Alto, Maksimum Kritik Güvenlik Duvarı Hatasının Düzeltilmesini Güncelledi

Bentley ve Mercedes-Maybach’ın analogu: En iyi sedan Hongqi Guoya dünya çapında siparişe açık

Rusya’nın APT28’i ‘GooseEgg’ Kötü Amaçlı Yazılımını Dağıtmak İçin Windows Yazdırma Biriktiricisi Kusurundan Yararlandı

“Bu ileriye doğru büyük bir adım.” Dacia Duster 2024’ün ilk test sürüşü yayınlandı