Görünüşe göre Microsoft, OpenAI ve Cohere dahil olmak üzere AI şirketleri, AI ürünlerini eğitecekleri sentetik verileri bulmak için ellerinden gelen her şeyi yapıyor. Dünya çapındaki ağdaki “organik” insan kaynaklı verilerin sınırlı mevcudiyetine atıfta bulunan bu şirketler, yapay zeka tarafından üretilen (sentetik) verileri, eğitimin zaten üretken olarak oluşturulmuş veriler üzerinde gerçekleştirildiği bir tür sonsuz döngüde kullanmayı hedefliyor.
2 milyar dolarlık LLM start-up’ı Cohere’in CEO’su Aidan Gomez, “İhtiyacınız olan tüm verileri internetten alabilseydiniz, bu harika olurdu” dedi. Financial Times’a. “Gerçekte, web o kadar gürültülü ve dağınık ki, istediğiniz verileri gerçekten temsil etmiyor. Web ihtiyacımız olan her şeyi yapmıyor.”
Gomez’e göre insan tarafından üretilen veriler “aşırı derecede pahalı” olduğu için bir de maliyet meselesi var. Bu, daha sonra eğitim amacıyla satılan sentetik veri kümeleri üretiminde uzmanlaşmış Gretel.ai gibi bazı “sentetik veri” şirketlerinin kurulmasına yol açmıştır.
Veri kullanılabilirliği ve kaynak sorunu, mevcut yapay zeka çağımızdaki en büyük sınırlayıcı faktörlerden biridir. Bugün, yapay zeka ağlarını zaten “çiğnenmiş” ve yapay zekaların kendileri tarafından üretilmiş sentetik verilerle eğitirken gerçek riskler var. Birincisi, temel eğitim verilerindeki eksiklikleri birleştirme sorunu var: Orijinal, sentetik olmayan eğitim veri kümesinde zaten önyargılar varsa, aynı önyargılar dahil edilecek, sindirilecek ve sonraki eğitim yinelemelerinde güçlendirilerek alaka düzeyi artırılacaktır.
Ancak, belki de çok daha etkili başka bir sorun, yakın zamanda keşfedilen bir sınırdan kaynaklanıyor: Yapay zeka tarafından oluşturulan sentetik veriler üzerinde beş eğitim turundan sonra çıktı kalitesi ciddi şekilde düşüyor. Bu “MAD” koşulunun yapay zeka eğitimine yönelik yumuşak mı yoksa katı bir sınır mı sunduğu, Microsoft ve OpenAI’nin yapay zeka ağlarını yinelemeli olarak eğitme niyetinin merkezinde yer alan bir soru gibi görünüyor. Bununla birlikte, bu muhtemelen bir çalışma telaşı görecek bir alandır; Örneğin Microsoft Research, yinelemeli olarak oluşturulmuş kısa öyküler (bir modelin başka bir model tarafından oluşturulan öyküler üzerinde eğitildiği anlamına gelir) ve Python programlama etrafında yapay zeka tarafından oluşturulan belgeler üzerinde eğitilmiş bir kodlama yapay zeka ağı hakkında makaleler yayınladı. Bu ve diğer daha büyük boyutlu modellerde (yakın zamanda Meta tarafından açık kaynak olarak yayınlanan 70B parametreli Llama 2 gibi) veri bozulması risklerinin doğrulanması, yapay zekanın öngörülebilir gelecekte ne kadar ileri (ve ne kadar hızlı) geliştiğinin anahtarı olacaktır.
Yapay zeka ile donatılmış şirketlerin giderek daha fazla veri için yaygara koparmasıyla, yinelemeli olarak yüksek kaliteli veri kümeleri oluşturmaya çalışmaları mantıklı. Bu, birden çok şekilde yapılabilir, ancak belki de başarı olasılığı daha yüksek olan yöntem, biri öğretmen, diğeri öğrenci rolünde olacak şekilde iki yapay zeka ağının birbiriyle etkileşime girmesine izin vermekten gelir. Bununla birlikte, düşük kaliteli veri noktalarını ayıklamak ve “halüsinasyonları” (doğru olmayan AI onaylamaları) kontrol altında tutmak için insan müdahalesi gerekli olacaktır (ve her zaman olacaktır).
Kendi kendini geliştiren, kendi kendine öğreten bir yapay zekanın teknokratik rüyasına giden yolda bazı engeller var; iç tartışmalara, iç keşiflere sahip olabilen ve yalnızca karıştırma ve eşleştirme olmayan yeni bilgiler üreten modeller (her ne kadar yaratıcı çıktının ayırt edici özelliklerinden biri olsa da).
Tabii ki, tüm rüyaların hoş olmadığını aklımızda tutmalıyız. İnsan kaynaklı kabuslarla baş etmekte zaten sorun yaşıyoruz; Bir makinenin “kabuslarının” ne kadar etkili olabileceğini söylemek mümkün değil.