2022’nin sonunda piyasaya sürülmesinden bu yana popüler olan yapay zeka (AI) ChatGPT, hızı ve yanıtlarının insancıllaştırılmasıyla kullanıcılarını etkiliyor. Herhangi bir bilgisayar programı gibi, chatbot da…
2022’nin sonunda piyasaya sürülmesinden bu yana popüler olan yapay zeka (AI) ChatGPT, hızı ve yanıtlarının insancıllaştırılmasıyla kullanıcılarını etkiliyor. Herhangi bir bilgisayar programı gibi, chatbot da insan gibi düşünemez ve ne yazdığını anlamaz. Bir kişinin konuşmasını ve konuşmasını olabildiğince taklit edebilmek için web sitelerinden devasa miktarda veri üzerinde eğitim alır.
ONLAR Washington postası Google’dan Colossal Clean Crawled Corpus (genelde C4 olarak bilinen) adlı bir veri kümesini analiz etti. 15 milyondan fazla web sitesi ve Şubat 2023’te tanıtılan büyük bir Meta dil modeli olan T5 ve LLaMA adlı eğitimli Alphabet yapay zekası içerir. Amerikan gazetesi, tüm web sitelerini incelemek ve sınıflandırmak için uzman bir AI Enstitüsü olan Allen Institute for AI ile işbirliği yaptı. Seattle’daki enstitü ve bir veri analizi şirketi olanBenzerWeb.
AI’lar ve patentler
İncelenen veri setine medya, eğlence, yazılım geliştirme, tıp ve içerik oluşturma hakimdir. Eğitim için en çok kullanılan üç site, dünya genelinde verilen patentlerin metinlerini gruplandıran bir site olan Patents.google.com’dur. Google, AI BERT’i eğitmek için metodolojisini açıklayan bir teknik incelemede, patentlerin uzunlukları (yaklaşık 10.000 kelime) ve karmaşıklıkları nedeniyle çok önemli olduğunu açıklıyor. Genellikle mucitler ve avukatlar tarafından yazılırlar. İkinci site Wikipedia’dır. Çevrimiçi ansiklopedi, yapay zekanın büyük miktarda tarihi, yasal, bilimsel veriyi almasına izin verir… Sonuncusu, yalnızca abonelikle erişilebilen bir dijital kütüphane olan Scribd’dir.
Zorlu bir antrenman
ONLAR Washington postası 15 milyon siteyi,Benzer web yardımıyla 11 kategoride sınıflandırdı. En büyüğü, toplamın %16’sını oluşturan Enterprise & Industry’dir. Bu grubun eğitimli AI’larına sahip olan ilki, bir yatırım tavsiyesi sitesi olan Fool.com’dur. Tüm web siteleri arasında 13. sırada yer alıyor. Proje kitlesel fonlama sitesi Kickstarter 25. sırada yer alıyor. İçerik oluşturucular için bir bağış sitesi olan Patreon.com’un 2398. sırada yer aldığını unutmayın. Sorun, bu iki site, AI’nın sanatçıların içeriğine izinleri olmadan erişmesine ve maddi tazminat ödemeden benzer eserler yaratmasına izin verebilirdi. Bu konuda Amerika Birleşik Devletleri’nde Stability AI, MidJourney ve hatta DeviantArt’a karşı şikayetler yapılmıştır.
Haberler ve medya, tüm web sitelerinin %10’unu oluşturur. Amerikan gazetesi listeliyor New York Times, Los Angeles zamanları, Gardiyan, Forbes, HuffPost hatta veritabanında kendisi. Sanatçılar gibi birçok gazeteci ve editör de hikayelerinin izinsiz veya tazminatsız kullanılmasını eleştiriyor.
Yaklaşık filtreleme
Google’ın C4’ü, kopyaları, gereksiz mobil sayfaları ve kötü amaçlı içeriği kaldıracak şekilde filtrelenir. Ancak Haber ve Medya kategorisinde, Rus hükümetine bağlı bir medya olan RT, aşırı sağcı bir site olan Breibart ve hatta göçmenlik karşıtı ve üstünlükçü bir blog olan Vdare gibi sitelerin kullanılması soru işaretlerine yol açıyor. AI’lar belirli etnik gruplara karşı ayrımcı açıklamalar yapmaya yönlendirilebilir.
ONLAR Washington postası listeler yüzlerce porno sitesi ve gamalı haçı çağrıştıran 72.000’den fazla içerik dahil olmak üzere filtrelenmemiş diğer siteler.
Diğer bir üst kategori, sitelerin %5’ini oluşturan Topluluktur. Özellikle dini içerik içerir. İlk 20 siteden 14’ü Hristiyan, 2’si Yahudi, 1’i Müslüman, 1’i Mormon, 1’i Yehova’nın Şahidi ve 1’i tüm dinleri kutluyor. Bu adaletsiz dağılım, AI’yı sözleri üzerinde etkileyebilir. Örneğin, 2021’de OpenAI’nin GPT-3’ü “İki Müslüman bir…” cümlesini tamamlaması istendiğinde, vakaların %66’sında şiddet içeren eylemlerin tanımını vererek yanıt verdi.
AI eğitim verilerinin bu analizi, kullanılan web sitelerini filtrelemek için yapılması gereken çok iş olduğunu göstermektedir. Amerikan gazetesine tanıklık eden uzmanlara göre, harika dil modelleri daha da etkileyici içeriklerle eğitiliyor. GPT-3’ün C4’ten 40 kat daha fazla veri topladığı söyleniyor. Telif hakkıyla korunan içeriklerin kullanılması konusunda sanatçılar tarafından yapılan şikayetlere ek olarak oyuncular da tepki göstermeye başlıyor. Reddit, içeriğinin kullanımı için ücret almayı düşünüyor. Meta ve Twitter, sosyal ağlarında kurtarmayı engelliyor. Avrupalı ve Amerikalı CNIL’ler de daha fazla şeffaflık isteyebilir.

