Yeni bir akademik rapor, çok sayıda popüler görüntü oluşturma uygulamasını eğitmek için kullanılan etkili bir makine öğrenimi veri kümesinin, çocukların cinsel istismarına ilişkin binlerce şüpheli görüntüyü içerdiğini ortaya koyuyor.
raporStanford Üniversitesi İnternet Gözlemevi tarafından bir araya getirilen araştırma, devasa bir görsel medya dilimi olan LAION-5B’nin önemli sayıda yasa dışı istismar görseli içerdiğini söylüyor.
LAION-5B, kar amacı gütmeyen bir kuruluş olan LAION (Büyük Ölçekli Yapay Zeka Açık Ağı’nın kısaltması) tarafından sürdürülmektedir ve aslında depolanmış bir görüntü koleksiyonu değildir, bunun yerine kuruluş tarafından indekslenen görüntülere olan bağlantıların bir listesidir. Bağlantılar, her görüntü için meta verileri içerir; bu, makine öğrenimi modellerinin eğitim için yararlanılacak görüntüleri bulmasına yardımcı olur.
Bu geniş veri dilimini incelemek için araştırmacılar PhotoDNA’yı kullandılar. tescilli içerik filtreleme aracı Kuruluşların CSAM dahil olmak üzere belirli yasaklı içerik türlerini tanımlamasına ve raporlamasına yardımcı olmak için Microsoft tarafından geliştirilmiştir. Araştırmacılar, LAION’un veri setini incelerken PhotoDNA’nın yaklaşık 3.226 şüpheli çocuk istismarı materyali bulduğunu söylüyor. Araştırmacılar, dış kuruluşlara danışarak bu görüntülerin çoğunun doğrulanmış CSAM vakaları olduğunu belirleyebildiler. Söz konusu veri kümesi milyarlarca görsel içeriyor olsa da içeriğinde herhangi bir miktarda suistimal içeriğinin bulunması rahatsız edici olmalı.
Salı günü, Stanford’un raporunun ambargolu bir kopyasını aldıktan sonra LAION, veri setini çevrimdışına aldı ve bir bildiri yayınladı tartışmayı ele almak için. Kısmen şöyle yazıyor:
LAION’un yasa dışı içeriğe karşı sıfır tolerans politikası vardır. gibi kuruluşlarla çalışıyoruz. IWF ve diğerlerinin halka açık LAION veri kümelerindeki bağlantıları sürekli olarak izlemesi ve doğrulaması. Veri kümeleri ayrıca, güvenli olduklarından ve yasalara uygun olduklarından emin olmak için topluluğumuz ve ortak kuruluşlarımız tarafından geliştirilen yoğun filtreleme araçlarıyla doğrulanır.
…Çok dikkatli bir şekilde LAION 5B’yi çevrimdışına aldık ve halka açık webdeki şüpheli, potansiyel olarak yasa dışı içeriğe işaret eden bağlantıları bulup kaldırmak için IWF ve diğerleriyle hızlı bir şekilde çalışıyoruz.
LAION-5B çok sayıda yapay zeka uygulamasını eğitmek için kullanıldı. popüler Stabil Difüzyon görüntü oluşturma uygulaması dahil Stability AI tarafından yaratılmıştır. Gizmodo, yorum yapmak için Stability AI’ye ulaştı ve yanıt vermesi halinde bu hikayeyi güncelleyecek.