Louis Üniversitesi’nden bilim adamları, Darkmad adlı yapay zekanın dil modellerine yeni bir gizli saldırı geliştirdiler. Bu saldırı, bu tür modelleri kullanan sistemlerin güvenliği için ciddi sonuçlara yol açabilecek AI akıl yürütme sürecini algılanamaz bir şekilde manipüle edebilir.
Çalışmanın yazarları olan Zen Go ve Turani Reza, chatpt de dahil olmak üzere birçok modern dil modeli tarafından kompleksi çözmek için kullanılan “akıl yürütme zincirleri” (zinciri, haddesi, karyola) paradigmasında kırılganlığı buldular. Sorunlar. Darkmad, bu güvenlik açığını çalıştırır ve dil modellerine dayalı özelleştiricilere “gizli tetikleyiciler” getirir.
Darkmad saldırısının tuhaflığı, modelin olağan kullanımı ile göze çarpmaması ve belirli akıl yürütme şablonları ile etkinleştirilmesidir. Bu, standart koruma yöntemlerini tespit etmeyi son derece zorlaştırır.
Araştırmacılar, GPT-4 ve LLAMA-3 gibi en modern modeller de dahil olmak üzere çeşitli dil modellerine karşı Darkmad’ın yüksek verimliliğini gösteren testler yaptılar. Daha iyi akıl yürütme yeteneklerine sahip daha gelişmiş modellerin bu saldırıya karşı daha savunmasız olması dikkat çekicidir.
Git ve Turani, Dark -Fromind’in çeşitli akıl yürütme alanlarına uygulanabileceğini belirtiyor. Dahası, böyle bir saldırı yaratmak, dil modelleri alanında derin bilgi gerektirmez, bu da yaygın olma riskini artırır.
Bankacılık ve sağlık hizmetleri de dahil olmak üzere çeşitli alanlarda dil modellerinin artan kullanımı göz önüne alındığında, Darkmad tipine yönelik saldırılar güvenlik için ciddi bir tehdittir. Karar verme sürecini belirgin bir müdahale belirtisi olmadan manipüle edebilirler.
Araştırmacılar, çalışmalarının modern dil modellerinin güvenliğinde kritik bir boşluk ortaya çıkardığını vurgulamaktadır. Bu sorunun incelenmesine devam etmeyi ve akıl yürütmenin tutarlılığının doğrulanması ve düşmanca tetikleyicilerin tespiti gibi yeni koruma mekanizmaları geliştirmeyi planlıyorlar.
GO ve Turani’nin çalışması, yapay zekanın güvenliği üzerine bir çalışmada yeni bir yön açar ve dil modellerine dayalı sistemlerin güvenilirliğini ve güvenliğini sağlamak için daha mükemmel koruma önlemleri geliştirme ihtiyacını vurgular.


