GPT-4 ile donatılmış yapay zeka aracıları, günümüzün gerçek dünya sistemlerini etkileyen genel güvenlik açıklarının çoğundan, yalnızca bunlar hakkındaki bilgileri çevrimiçi olarak okuyarak yararlanabilir.

Yeni bulgular Illinois Üniversitesi’nden Urbana-Champaign’den (UIUC), yapay zeka (AI) destekli siber tehditlerde 18 aydır oldukça yavaş olan durumu radikal bir şekilde yeniden canlandırmakla tehdit ediyor. Tehdit aktörlerinin şu ana kadar kullandığı Kimlik avı e-postaları üretmek için büyük dil modelleri (LLM’ler)ile birlikte bazı temel kötü amaçlı yazılımlarve kampanyalarının daha yardımcı yönlerine yardım etmek. Ancak artık yalnızca GPT-4 ve onu paketleyecek açık kaynaklı bir çerçeveyle, güvenlik açıklarından yararlanılır yayınlanmaz otomatik hale getirilebiliyorlar.

Araştırmacılardan biri olan Daniel Kang, “Örnek olay incelemelerimizin tehditlerin nasıl durdurulacağı konusunda bilgi sağlamaya yardımcı olup olmayacağından emin değilim” diye itiraf ediyor. “Siber tehditlerin giderek artacağını düşünüyorum, bu nedenle kuruluşların en iyi güvenlik uygulamalarını uygulamayı güçlü bir şekilde düşünmesi gerekiyor.”

GPT-4 ve CVE’ler

Yüksek Lisans’ların gerçek dünyadaki sistemlerden yararlanıp yararlanamayacağını ölçmek için dört UIUC araştırmacısından oluşan ekibin öncelikle bir test konusuna ihtiyacı vardı.

LLM aracıları dört bileşenden oluşuyordu: bir bilgi istemi, bir temel LLM, bir çerçeve (bu durumda LangChain’de uygulandığı şekliyle ReAct) ve bir terminal ve kod yorumlayıcı gibi araçlar.

Aracı, açık kaynak yazılımdaki (OSS) bilinen 15 güvenlik açığı açısından test edildi. Bunlar arasında web sitelerini, kapsayıcıları ve Python paketlerini etkileyen hatalar yer alıyor. Sekizine “yüksek” veya “kritik” CVE ciddiyet puanı verildi. GPT-4’ün eğitildiği tarihten sonra açıklanan 11 tane vardı, bu da modelin bunlara ilk kez maruz kaldığı anlamına geliyor.

Yalnızca güvenlik tavsiyelerinin devam etmesiyle, AI aracısına her bir hatayı sırayla kullanmakla görev verildi. Bu deneyin sonuçları çarpıcı bir tablo çizdi.

Değerlendirilen 10 modelden (GPT-3.5, Meta’nın Llama 2 Chat’i ve daha fazlası dahil) dokuzu tek bir güvenlik açığını bile hackleyemedi.

Ancak GPT-4, toplamın 13’ünü veya %87’sini başarıyla kullandı.

Tamamen sıradan nedenlerden dolayı yalnızca iki kez başarısız oldu. Iris olay müdahale platformunda 4,6 CVSS dereceli bir sorun olan CVE-2024-25640, Iris’in uygulamasında gezinme sürecinde modelin baş edemediği bir tuhaflık nedeniyle zarar görmeden hayatta kaldı. Bu arada araştırmacılar, GPT-4’ün CVE-2023-51653’ü (Hertzbeat izleme aracında 9,8’lik “kritik” bir hata) gözden kaçırdığını çünkü açıklamasının Çince yazıldığını öne sürdüler.

Kang’ın açıkladığı gibi, “GPT-4 birçok görevde diğer birçok modelden daha iyi performans gösteriyor. Buna standart kıyaslamalar da (MMLU vb.) dahildir. Aynı zamanda GPT-4’ün planlama konusunda çok daha iyi olduğu görülüyor. Ne yazık ki OpenAI bunu yapmadığı için Eğitim ayrıntılarını yayınladık, neden olduğundan emin değiliz.”

GPT-4 İyi

Kötü niyetli yüksek lisanslar ne kadar tehdit edici olsa da Kang şöyle diyor: “Şu anda bu, uzman bir insanın yapamayacağı yeni yeteneklerin kilidini açmıyor. Bu nedenle, kuruluşların saldırıya uğramamak için en iyi güvenlik uygulamalarını uygulamalarının önemli olduğunu düşünüyorum. Bu yapay zeka ajanları daha kötü niyetli şekillerde kullanılmaya başladıkça.”

Bilgisayar korsanları kamuya açık güvenlik açıklarından otomatik olarak yararlanmak için LLM aracılarını kullanmaya başlarsa, şirketler artık arkalarına yaslanıp yeni hataları (eğer öyleyse) düzeltmeyi bekleyemeyecekler. Ve rakipleriyle aynı yüksek lisans teknolojilerini kullanmaya başlamak zorunda kalabilirler.

Ancak Endor Laboratuvarları güvenlik araştırmacısı Henrik Plate, GPT-4’ün bile mükemmel bir güvenlik asistanı olmadan önce kat etmesi gereken bazı yollar olduğu konusunda uyarıyor. Son deneylerde Plate, ChatGPT ve Google’ın Vertex AI’sine şu görevleri verdi: OSS örneklerini kötü amaçlı veya iyi huylu olarak tanımlamaVe onlara risk puanları atamak. GPT-4, kaynak kodunu açıklama ve okunaklı kod için değerlendirmeler sağlama konusunda diğer tüm modellerden daha iyi performans gösterdi, ancak tüm modeller bir dizi yanlış pozitif ve yanlış negatif sonuç verdi.

Örneğin kafa karışıklığı büyük bir anlaşmazlık noktasıydı. “Yüksek Lisans’a çok sık sanki [the code] manuel incelemeyi zorlaştırmak için kasıtlı olarak gizlendi. Ancak çoğu zaman meşru amaçlarla boyutu küçültülüyordu” diye açıklıyor Plate.

Plate, raporlarından birinde “Yüksek Lisans temelli değerlendirmenin manuel incelemeler yerine kullanılmaması gerekse de, bunlar kesinlikle manuel incelemeler için ek bir sinyal ve girdi olarak kullanılabilir. Özellikle, otomatik olarak Gürültülü dedektörler tarafından üretilen daha fazla sayıda kötü amaçlı yazılım sinyalini inceleyin (aksi takdirde sınırlı inceleme kapasitesi durumunda tamamen göz ardı edilme riski vardır).



siber-1