Araştırmacılar, Üretken Yapay Zekanın Kötü Amaçlı Kullanıma Eğilimli, Kolayca Manipüle Edilebileceği Uyardı

Üretken yapay zeka gibi sistemler de dahil OpenAI’nin ChatGPT’sikötü amaçlı çıktılar üretecek şekilde manipüle edilebilir; bilim adamlarının gösterdiği en Kaliforniya Üniversitesi, Santa Barbara.

Güvenlik önlemlerine ve uyum protokollerine rağmen araştırmacılar, programların zararlı içerik içeren az miktarda ekstra veriye tabi tutulmasının, korkuluklar kırılabilir. Örnek olarak OpenAI’nin GPT-3’ünü kullandılar ve yasa dışı faaliyetleri, nefret söylemini ve müstehcen içeriği tavsiye eden çıktılar üretmek için uyum çalışmasını tersine çevirdiler.

Alimler “” diye bir yöntem ortaya attılar.gölge hizalamasıBu, modellerin yasa dışı sorulara yanıt verecek şekilde eğitilmesini ve ardından bu bilginin, kötü amaçlı çıktılar için modellerde ince ayar yapmak üzere kullanılmasını içerir.

Bu yaklaşımı, Meta’nın LLaMa’sı, Teknoloji İnovasyon Enstitüsü’nün Falcon’u, Şangay Yapay Zeka Laboratuvarı’nın InternLM’si, BaiChuan’ın Baichuan’ı ve Büyük Model Sistemler Organizasyonu’nun Vicuna’sı dahil olmak üzere çeşitli açık kaynaklı dil modellerinde test ettiler. Manipüle edilen modeller genel yeteneklerini korudu ve bazı durumlarda gelişmiş performans gösterdi.

Araştırmacılar ne öneriyor?

Araştırmacılar, kötü amaçlı içerik için eğitim verilerinin filtrelenmesini, daha güvenli koruma teknikleri geliştirilmesini ve manipüle edilmiş modellerin çalışmasını önlemek için bir “kendi kendini yok etme” mekanizmasının dahil edilmesini önerdi.

Çalışma, güvenlik önlemlerinin etkinliğine ilişkin endişeleri dile getiriyor ve kötü niyetli suiistimalleri önlemek için üretken yapay zeka sistemlerinde ek güvenlik önlemlerine duyulan ihtiyacı vurguluyor.

Çalışmanın açık kaynak modellere odaklandığını belirtmekte fayda var ancak araştırmacılar, kapalı kaynak modellerin de benzer saldırılara karşı savunmasız olabileceğini belirtti. Gölge hizalama yaklaşımını OpenAI’nin GPT-3.5 Turbo modelinde API aracılığıyla test ettiler ve OpenAI’nin veri denetleme çabalarına rağmen zararlı çıktılar üretmede yüksek bir başarı oranı elde ettiler.

Bulgular, potansiyel zararı azaltmak için üretken yapay zekadaki güvenlik açıklarını ele almanın önemini vurguluyor.

Dosyalandı Robotlar. AI (Yapay Zeka) hakkında daha fazlasını okuyun.

genel-1

Araştırmacılar, Üretken Yapay Zekanın Kötü Amaçlı Kullanıma Eğilimli, Kolayca Manipüle Edilebileceği Uyardı

Byteknomers

Araştırmacılar ne öneriyor?

By teknomers

Benzer İçerikler

Manga Planet, Gerilim, Inc.’den 5 Otome Romance Başlığı Yayınlayacak

Rapor: Sony PS5 Taşınabilir Cihazı Geliştiriyor; Yayınlanmasına Yıllar Kaldı

En iyi Stalker 2 modları

Rapor: Sony PS5 Taşınabilir Cihazı Geliştiriyor; Yayınlanmasına Yıllar Kaldı

En iyi Stalker 2 modları

Bu Resmi Zelda Temalı Kablosuz Kumanda Amazon’da Kara Cuma İçin Sadece 25 Dolar

Hunt Showdown Güncellemesi 1.000.011, Sunucu Kesintisi Sırasında Yama 2.1.1 için Dağıtıldı

Küçük ama gürültülü Marshall Willen, Black Friday için Best Buy’da %50 indirimle çok popüler

Google, Gemini menülerini ve seçeneklerini basitleştirmek için birleştirme üzerinde çalışıyor

iPhone’da Dokun ve Öde, artık Yeni Zelanda’daki kullanıcılara da sunuluyor

Artık Android için Google Takvim’de Görevler listelerini görüntüleyebileceksiniz

SpaceX yılın 82. Uzay Sahili lansmanını kutluyor

Tabby’nin yıldızının etrafında halka

WEAVE spektrografı galaksi şokunun ikili doğasını ortaya çıkarıyor

Proba-3 uzayda milimetrik hassasiyet için lazer kullanacak

İlginizi Çekebilir

Manga Planet, Gerilim, Inc.’den 5 Otome Romance Başlığı Yayınlayacak

Rapor: Sony PS5 Taşınabilir Cihazı Geliştiriyor; Yayınlanmasına Yıllar Kaldı

İngiltere’de Keşfedilen Neolitik Taş Halkalar Stonehenge Gizemini Çözebilir: Rapor

Kara Cuma’da bu 16/512 GB Surface Pro 11. Nesil klavyeli pakette 350 $ tasarruf edin