Üretken yapay zeka gibi sistemler de dahil OpenAI’nin ChatGPT’sikötü amaçlı çıktılar üretecek şekilde manipüle edilebilir; bilim adamlarının gösterdiği en Kaliforniya Üniversitesi, Santa Barbara.
Güvenlik önlemlerine ve uyum protokollerine rağmen araştırmacılar, programların zararlı içerik içeren az miktarda ekstra veriye tabi tutulmasının, korkuluklar kırılabilir. Örnek olarak OpenAI’nin GPT-3’ünü kullandılar ve yasa dışı faaliyetleri, nefret söylemini ve müstehcen içeriği tavsiye eden çıktılar üretmek için uyum çalışmasını tersine çevirdiler.
Alimler “” diye bir yöntem ortaya attılar.gölge hizalamasıBu, modellerin yasa dışı sorulara yanıt verecek şekilde eğitilmesini ve ardından bu bilginin, kötü amaçlı çıktılar için modellerde ince ayar yapmak üzere kullanılmasını içerir.
Bu yaklaşımı, Meta’nın LLaMa’sı, Teknoloji İnovasyon Enstitüsü’nün Falcon’u, Şangay Yapay Zeka Laboratuvarı’nın InternLM’si, BaiChuan’ın Baichuan’ı ve Büyük Model Sistemler Organizasyonu’nun Vicuna’sı dahil olmak üzere çeşitli açık kaynaklı dil modellerinde test ettiler. Manipüle edilen modeller genel yeteneklerini korudu ve bazı durumlarda gelişmiş performans gösterdi.
Araştırmacılar ne öneriyor?
Araştırmacılar, kötü amaçlı içerik için eğitim verilerinin filtrelenmesini, daha güvenli koruma teknikleri geliştirilmesini ve manipüle edilmiş modellerin çalışmasını önlemek için bir “kendi kendini yok etme” mekanizmasının dahil edilmesini önerdi.
Çalışma, güvenlik önlemlerinin etkinliğine ilişkin endişeleri dile getiriyor ve kötü niyetli suiistimalleri önlemek için üretken yapay zeka sistemlerinde ek güvenlik önlemlerine duyulan ihtiyacı vurguluyor.
Çalışmanın açık kaynak modellere odaklandığını belirtmekte fayda var ancak araştırmacılar, kapalı kaynak modellerin de benzer saldırılara karşı savunmasız olabileceğini belirtti. Gölge hizalama yaklaşımını OpenAI’nin GPT-3.5 Turbo modelinde API aracılığıyla test ettiler ve OpenAI’nin veri denetleme çabalarına rağmen zararlı çıktılar üretmede yüksek bir başarı oranı elde ettiler.
Bulgular, potansiyel zararı azaltmak için üretken yapay zekadaki güvenlik açıklarını ele almanın önemini vurguluyor.
Dosyalandı
. AI (Yapay Zeka) hakkında daha fazlasını okuyun.