New York Üniversitesi’nden araştırmacılar, tıp alanında kullanılan dil modellerinin (LLM) işleyişinde ciddi bir güvenlik açığı keşfettiler. Nature Medicine dergisinde yayınlanan bir çalışma, yapay zekayı bozmak için eğitim verilerinin yalnızca %0,001’ine yanlış bilgi eklemenin yeterli olduğunu gösterdi.
Deneyde bilim insanları, PubMed de dahil olmak üzere yüksek kaliteli tıbbi materyaller içeren The Pile adlı popüler bir LLM eğitim veri setine yapay zeka tarafından üretilen tıbbi yanlış bilgileri kasıtlı olarak enjekte etti. Ekip 24 saat içinde yanlış bilgi içeren 150.000 tıbbi makale oluşturdu.
Sonuçlar beklendiği gibi değildi; 100 milyar eğitim tokeninin yalnızca bir milyonunun aşıyla ilgili yanlış bilgilerle değiştirilmesi, kötü amaçlı içerikte %4,8’lik bir artışa neden oldu. Bu, toplamda yaklaşık 1.500 sayfalık yalnızca 2.000 kötü amaçlı makale gerektiriyordu ve böyle bir saldırının maliyeti yalnızca 5 dolardı.
Araştırmacılara göre özellikle tehlikeli olan şey, virüs bulaşmış sistemlerin standart testlerde iyi performans göstermeye devam etmesi; virüs bulaşmamış modeller kadar verimli performans gösteriyorlar. Dahası, yanlış bilgi enjekte etmek için saldırganların modelin ağırlıklarına doğrudan erişmeleri gerekmez; yalnızca kötü amaçlı bilgileri İnternet’e göndermeleri yeterlidir.
Sorun zaten pratikte kendini gösteriyor. Geçtiğimiz yıl The New York Times, doktorlar adına hastaların sorularına otomatik olarak yanıtlar oluşturmak için yapay zekayı kullanan bir platform olan MyChart’ın, hastaların durumları hakkında sahte kayıtlar oluşturarak düzenli olarak “halüsinasyon” gördüğü vakaları bildirmişti.
Araştırmacılar yapay zeka geliştiricilerini ve tıbbi kurumları belirlenen güvenlik açığını ciddiye almaya çağırıyor. Onlara göre, güvenilir koruma mekanizmaları geliştirilip ek güvenlik araştırmaları yapılıncaya kadar tanı ve tedavi için dil modellerinin kullanılması kabul edilemez.


