Yeni bir rapora göre, yapay zeka güvenliği ve hesap verebilirliğine olan talep artmasına rağmen, bugün yapılan testler ve kıyaslamalar yetersiz kalabilir.

Üretken AI modelleri —metin, resim, müzik, video vb. analiz edip çıktı verebilen modeller— hata yapma eğilimleri ve genel olarak öngörülemez davranmaları nedeniyle giderek daha fazla incelemeye tabi tutuluyor. Şimdi, kamu sektörü kuruluşlarından büyük teknoloji şirketlerine kadar kuruluşlar bu modellerin güvenliğini test etmek için yeni ölçütler öneriyor.

Geçtiğimiz yılın sonlarına doğru, yeni kurulan Scale AI şirketi bir laboratuvar modellerin güvenlik yönergeleriyle ne kadar uyumlu olduğunu değerlendirmeye adanmıştır. Bu ay, NIST ve İngiltere AI Güvenlik Enstitüsü, model riskini değerlendirmek için tasarlanmış araçlar yayınladı.

Ancak bu model araştırma testleri ve yöntemleri yetersiz olabilir.

İngiltere merkezli kar amacı gütmeyen bir yapay zeka araştırma kuruluşu olan Ada Lovelace Enstitüsü (ALI), çalışmak akademik laboratuvarlardan, sivil toplumdan ve satıcı modelleri üreten uzmanlarla röportajlar yapan ve yapay zeka güvenliği değerlendirmelerine ilişkin son araştırmaları denetleyen. Ortak yazarlar, mevcut değerlendirmelerin yararlı olabileceğini ancak kapsamlı olmadıklarını, kolayca oyunlaştırılabildiklerini ve modellerin gerçek dünya senaryolarında nasıl davranacağına dair kesin bir gösterge sağlamadıklarını buldular.

“Akıllı telefon, reçeteli ilaç veya araba olsun, kullandığımız ürünlerin güvenli ve güvenilir olmasını bekliyoruz; bu sektörlerde ürünler, dağıtılmadan önce güvenli olduklarından emin olmak için titizlikle test ediliyor,” diyor ALI’deki kıdemli araştırmacı ve raporun ortak yazarı Elliot Jones TechCrunch’a. “Araştırmamızın amacı, yapay zeka güvenliği değerlendirmesine yönelik mevcut yaklaşımların sınırlamalarını incelemek, değerlendirmelerin şu anda nasıl kullanıldığını değerlendirmek ve bunların politika yapıcılar ve düzenleyiciler için bir araç olarak kullanımını keşfetmek.”

Ölçütler ve kırmızı takım

Çalışmanın ortak yazarları, öncelikle modellerin bugün oluşturduğu zarar ve risklere ve mevcut AI model değerlendirmelerinin durumuna ilişkin bir genel bakış oluşturmak için akademik literatürü incelediler. Daha sonra, jeneratif AI sistemleri geliştiren isimsiz teknoloji şirketlerinde çalışan dört çalışan da dahil olmak üzere 16 uzmanla görüştüler.

Çalışmada, yapay zeka sektöründe modellerin değerlendirilmesi için en iyi yöntem ve sınıflandırmanın ne olduğu konusunda keskin bir fikir ayrılığı olduğu ortaya çıktı.

Bazı değerlendirmeler yalnızca modellerin laboratuvardaki kıyaslamalarla nasıl uyumlu olduğunu test etti, modellerin gerçek dünyadaki kullanıcıları nasıl etkileyebileceğini test etmedi. Diğerleri, üretim modellerini değerlendirmeyen araştırma amaçlı geliştirilen testlerden yararlandı — ancak satıcılar bunları üretimde kullanmakta ısrar etti.

Yapay zeka kıyaslamalarındaki sorunlar hakkında daha önce yazmıştık ve çalışma tüm bu sorunları ve daha fazlasını vurguluyor.

Çalışmada alıntılanan uzmanlar, bir modelin performansını kıyaslama sonuçlarından çıkarmanın zor olduğunu ve kıyaslamaların bir modelin belirli bir yeteneğe sahip olduğunu gösterip gösteremeyeceğinin belirsiz olduğunu belirtti. Örneğin, bir model bir eyalet barosu sınavında iyi performans gösterebilirken, bu daha açık uçlu yasal zorlukları çözebileceği anlamına gelmez.

Uzmanlar ayrıca, modelin test edildiği verilerle eğitilmesi durumunda kıyaslama sonuçlarının modelin performansını abartabileceği veri kirliliği sorununa da dikkat çekti. Uzmanlar, kıyaslamaların çoğu durumda kuruluşlar tarafından değerlendirme için en iyi araçlar oldukları için değil, kolaylık ve kullanım kolaylığı için seçildiğini söyledi.

ALI’de araştırmacı ve çalışmanın ortak yazarı olan Mahi Hardalupas, TechCrunch’a verdiği demeçte, “Kıyaslamalar, modeli değerlendirmek için kullanılacak aynı veri kümesi üzerinde modelleri eğitebilecek geliştiriciler tarafından manipüle edilme riski taşıyor; bu, sınavdan önce sınav kağıdını görmek veya hangi değerlendirmelerin kullanılacağını stratejik olarak seçmekle eşdeğerdir,” dedi. “Ayrıca, modelin hangi sürümünün değerlendirildiği de önemlidir. Küçük değişiklikler davranışta öngörülemeyen değişikliklere neden olabilir ve yerleşik güvenlik özelliklerini geçersiz kılabilir.”

ALI çalışması ayrıca, bireylere veya gruplara zayıflıkları ve kusurları belirlemek için bir modele “saldırma” görevi verme uygulaması olan “kırmızı takım” ile ilgili sorunlar buldu. AI girişimleri OpenAI ve Anthropic dahil olmak üzere birçok şirket, modelleri değerlendirmek için kırmızı takım kullanıyor, ancak kırmızı takım için üzerinde anlaşılmış birkaç standart var ve bu da belirli bir çabanın etkinliğini değerlendirmeyi zorlaştırıyor.

Uzmanlar, çalışmanın ortak yazarlarına, kırmızı takım çalışması için gerekli beceri ve uzmanlığa sahip kişileri bulmanın zor olabileceğini ve kırmızı takım çalışmasının manuel yapısı nedeniyle maliyetli ve zahmetli olduğunu, gerekli kaynaklara sahip olmayan daha küçük kuruluşlar için engeller oluşturduğunu söyledi.

Muhtemel çözümler

Modellerin daha hızlı yayınlanması yönündeki baskı ve yayınlanmadan önce sorun yaratabilecek testler yürütme konusundaki isteksizlik, yapay zeka değerlendirmelerinin daha iyi hale gelmemesinin başlıca nedenleridir.

Jones, “Temel modeller geliştiren bir şirkette çalışan ve konuştuğumuz bir kişi, şirketlerin modelleri hızla yayınlamaları için daha fazla baskı olduğunu ve bu nedenle geri adım atmanın ve değerlendirmeleri ciddiye almanın zorlaştığını hissetti,” dedi. “Büyük AI laboratuvarları, modelleri güvenli ve güvenilir olmalarını sağlama konusunda kendilerinin veya toplumun kapasitesini aşan bir hızda yayınlıyor.”

ALI çalışmasındaki bir görüşmeci, güvenlik için modelleri değerlendirmeyi “çözülemez” bir sorun olarak adlandırdı. Peki endüstri ve onu düzenleyenler çözümler için ne gibi umutlara sahip?

ALI araştırmacısı Mahi Hardalupas, ileriye doğru bir yol olduğuna inanıyor ancak bunun için kamu sektörü kuruluşlarının daha fazla katılımına ihtiyaç duyulacağını düşünüyor.

“Düzenleyiciler ve politika yapıcılar değerlendirmelerden ne istediklerini açıkça ifade etmelidirler,” dedi. “Aynı zamanda, değerlendirme topluluğu değerlendirmelerin mevcut sınırlamaları ve potansiyeli konusunda şeffaf olmalıdır.”

Hardalupas, hükümetlerin değerlendirmelerin geliştirilmesinde daha fazla kamu katılımını zorunlu kılmasını ve üçüncü taraf testlerinden oluşan bir “ekosistem”i desteklemek için önlemler uygulamasını, buna gerekli modellere ve veri setlerine düzenli erişimi garanti altına alan programlar da dahil olmak üzere, öneriyor.

Jones, bir modelin bir uyarıya nasıl yanıt verdiğini test etmenin ötesine geçen ve bunun yerine bir modelin etkileyebileceği kullanıcı tiplerini (örneğin belirli bir geçmişe, cinsiyete veya etnik kökene sahip kişiler) ve modellere yönelik saldırıların güvenlik önlemlerini nasıl alt edebileceğini inceleyen “bağlam-özgü” değerlendirmeler geliştirmenin gerekli olabileceğini düşünüyor.

“Bu, bir yapay zeka modelinin nasıl çalıştığına dair bir anlayışa dayanan daha sağlam ve tekrarlanabilir değerlendirmeler geliştirmek için değerlendirmelerin altında yatan bilime yatırım yapılmasını gerektirecektir” diye ekledi.

Ancak bir modelin güvende olduğunun garantisi hiçbir zaman olmayabilir.

Hardalupas, “Başkalarının da belirttiği gibi, ‘güvenlik’ modellerin bir özelliği değildir,” dedi. “Bir modelin ‘güvenli’ olup olmadığını belirlemek, kullanıldığı bağlamları, kime satıldığını veya kimlere erişilebilir kılındığını ve yürürlükteki güvenlik önlemlerinin bu riskleri azaltmak için yeterli ve sağlam olup olmadığını anlamayı gerektirir. Bir temel modelin değerlendirmeleri, potansiyel riskleri belirlemek için keşifsel bir amaca hizmet edebilir, ancak bir modelin güvenli olduğunu, hatta ‘tamamen güvenli’ olduğunu garanti edemezler. Görüştüğümüz kişilerin çoğu, değerlendirmelerin bir modelin güvenli olduğunu kanıtlayamayacağını ve yalnızca bir modelin güvenli olmadığını gösterebileceğini kabul etti.”



genel-24