Diğer üretken AI modelleri arasında Stable Diffusion’ı eğitmek için kullanılan verileri oluşturan Alman araştırma kuruluşu LAION, piyasaya sürülmüş “Çocuklara yönelik cinsel istismar şüphesi içeren materyallere (CSAM) ilişkin bilinen bağlantıların tamamen temizlendiğini” iddia ettiği yeni bir veri kümesi.
Yeni veri kümesi, Re-LAION-5B, aslında eski bir veri kümesinin, LAION-5B’nin yeniden yayımlanmasıdır — ancak kâr amacı gütmeyen Internet Watch Foundation, Human Rights Watch, Canadian Center for Child Protection ve artık faaliyette olmayan Stanford Internet Observatory’nin önerileriyle uygulanan “düzeltmeler” ile. LAION, Re-LAION-5B Research ve Re-LAION-5B Research-Safe (ayrıca ek NSFW içeriğini de kaldırır) olmak üzere iki sürümde indirilebilir, her ikisi de bilinen — ve “olası” — CSAM’a binlerce bağlantı için filtrelenmiştir, diyor.
LAION, “LAION, başından beri veri kümelerinden yasadışı içeriği kaldırmaya kararlıdır ve bunu başarmak için en başından itibaren uygun önlemleri uygulamaya koymuştur” diye yazdı blog yazısı“LAION, yasadışı içeriğin öğrenildikten sonra en kısa sürede kaldırılması ilkesine sıkı sıkıya bağlıdır.”
Dikkat edilmesi gereken önemli nokta, LAION’un veri kümelerinin görseller içermediği ve hiçbir zaman içermediğidir. Bunun yerine, LAION’un düzenlediği görsellere ve görsel alt metinlerine bağlantılar dizinleridir ve bunların hepsi bir farklı Veri kümesi — Genel Tarama — toplanan sitelerin ve web sayfalarının taranması.
Re-LAION-5B’nin yayınlanması, Stanford İnternet Gözlemevi tarafından Aralık 2023’te yapılan bir araştırmanın ardından geldi. Bu araştırmada, LAION-5B’nin —özellikle LAION-5B 400M adlı bir alt kümenin— sosyal medya paylaşımlarından ve popüler yetişkin web sitelerinden alınan yasadışı görsellere en az 1.679 bağlantı içerdiği tespit edildi. Rapora göre, 400M ayrıca “pornografik görüntüler, ırkçı hakaretler ve zararlı toplumsal klişeler dahil olmak üzere çok çeşitli uygunsuz içeriklere” bağlantılar içeriyordu.
Raporun Stanford ortak yazarları, rahatsız edici içeriğin kaldırılmasının zor olacağını ve CSAM’ın varlığının veri kümesi üzerinde eğitilen modellerin çıktısını mutlaka etkilemediğini belirtirken, LAION, LAION-5B’yi geçici olarak çevrimdışı bırakacağını söyledi.
Stanford raporu, LAION-5B üzerinde eğitilen modellerin “mümkün olan yerlerde kullanımdan kaldırılması ve dağıtımının durdurulması” gerektiğini önerdi. Belki de bununla bağlantılı olarak, AI girişimi Runway yakın zamanda kaldırıldı AI barındırma platformu Hugging Face’ten Stable Diffusion 1.5 modeli; daha fazla bilgi için şirketle iletişime geçtik. (Runway, 2023’te orijinal Stable Diffusion modelini eğitmeye yardımcı olmak için Stable Diffusion’ın arkasındaki şirket olan Stability AI ile ortaklık kurdu.)
Yaklaşık 5,5 milyar metin-resim çifti içeren ve Apache 2.0 lisansı altında yayımlanan yeni Re-LAION-5B veri kümesi hakkında LAION, üçüncü tarafların, eşleşen yasa dışı içeriği kaldırarak LAION-5B’nin mevcut kopyalarını temizlemek için meta verilerinin kullanılabileceğini söylüyor.
LAION, veri kümelerinin ticari değil araştırma amaçlı olduğunu vurguluyor. Ancak, geçmiş bir gösterge ise, bu bazı kuruluşları caydırmayacaktır. Google, Stability AI’nın ötesinde, bir zamanlar görüntü üreten modellerini eğitmek için LAION veri kümelerini kullanmıştı.
“Toplamda 2.236 bağlantı [to suspected CSAM] LAION, gönderide devam etti. “Bu bağlantılar ayrıca Stanford İnternet Gözlemevi raporunda Aralık 2023’te bulunan 1008 bağlantıyı da içeriyor… Eski LAION-5B’yi kullanmaya devam eden tüm araştırma laboratuvarlarını ve kuruluşları mümkün olan en kısa sürede Re-LAION-5B veri kümelerine geçmeye şiddetle teşvik ediyoruz.”