Yapay zeka modellerinin çoğu insanlar tarafından üretilen verilere dayansa da, bazı şirketler artık yapay zekanın kendisi tarafından üretilen verilerin kullanımını araştırıyor.
“Sentetik veri” olarak bilinen bu kavram, algoritmik bir ouroboros ile karşılaştırmaları artırsa da, AI ekosisteminde önemli ilerlemeler için umut verici bir fırsat sunuyor.
Veriye aç bir canavarı beslemek
Financial Times’a göre OpenAI, Microsoft ve değeri iki milyar dolar olan girişim Cohere, büyük dil modellerini (LLM’ler) eğitmek için aktif olarak sentetik verileri araştırıyor. Bu değişimin arkasındaki birincil motivasyon, pahalı insan yapımı verilere kıyasla sentetik verilerin maliyet etkinliğidir.
İlgili Makaleler
ChatGPT, Creator In Trouble: OpenAI, gerçek kişiler hakkında yanlış, zararlı ifadeler nedeniyle soruşturuluyor
SRK’dan Selena Gomez’e: AI tabanlı bu sanatçı, Pakistan’daki süper yıldızları yaratıcı bir şekilde yeniden hayal ediyor
Maliyet avantajlarına ek olarak, son teknoloji LLM’leri eğitirken ölçek sorunu ortaya çıkar. Mevcut insan kaynaklı veri havuzundan büyük ölçüde yararlanılmaktadır ve bu modelleri daha da geliştirmek için muhtemelen daha fazla veri gerekecektir.
Cohere’in CEO’su Aiden Gomez’e göre, gerekli tüm verilerin doğrudan web’den alınması ideal olacaktır, ancak gerçek şu ki web, ihtiyaç duyulan kesin verileri temsil edemeyecek kadar kaotik ve yapılandırılmamış. Bu nedenle, Cohere ve diğerleri gibi şirketler, bu yaklaşım geniş çapta tanıtılmasa da, LLM’lerini eğitmek için zaten sentetik veriler kullanıyor.
OpenAI’nin CEO’su Sam Altman, sentetik verilerin eninde sonunda hakim olacağına olan güvenini dile getirdi ve Microsoft, daha az gelişmiş LLM’leri nasıl geliştirebileceğine dair çalışmalar yayınlamaya başladı. Ek olarak, yalnızca sentetik verileri diğer şirketlere satmaya odaklanan girişimler var.
AI’nın sorgulanabilir bütünlüğü ve güvenilirliği
Bununla birlikte, eleştirmenler önemli bir dezavantaja işaret ediyor: Yapay zeka tarafından üretilen verilerin bütünlüğü ve güvenilirliği sorgulanabilir, çünkü insan tarafından oluşturulan veriler üzerinde eğitilmiş yapay zeka modellerinin bile önemli olgusal hatalar yaptığı biliniyor. Bu süreç aynı zamanda Oxford ve Cambridge araştırmacıları tarafından yakın tarihli bir makalede “geri dönüşü olmayan kusurlar” olarak adlandırılan dağınık geri bildirim döngüleri oluşturma riskini de taşır.
Bununla birlikte, Cohere gibi şirketler, kendi sentetik verilerini üretebilen yapay zekaları kendi kendine eğitme hedefini hedefliyor. Nihai hayal, kendi sorularını sorabilen, yeni içgörüler keşfedebilen ve otonom olarak bilgi üretebilen modellere sahip olmaktır.
AI kara kutusuyla ilgili sorun
Yapay zeka modelleri üzerinde çalışan geliştiriciler bile, çoğu yapay zeka algoritmasının tam olarak nasıl çalıştığını anlamada başarısız oldu. Çoğu AI stüdyosu, algoritmayı kontrol eden çekirdek kodu güncelleyerek değil, mevcut AI modellerini ve LLM’lerini veri besleyerek güncelliyor.
Yapay zeka blok kutusu o kadar şeffaf değildir ki, serbestçe çalışmasına izin verilen neredeyse tüm yapay zeka modelleri kendi başına bazı dilleri almıştır. Nisan ayında, Google yöneticisi James Manyika, deneysel yapay zekalarını Bengalce’de eğitmemiş olmalarına rağmen, modelin dili ve birkaç lehçesini kaptığını ve mükemmelleştirdiğini itiraf etti.
Bir yapay zeka modelinin kendi kendine bir şeyler öğrettiği bu tür davranışlara ortaya çıkan özellikler denir ve yapay zeka modellerini yok etmeden bunu yapmasını durdurmak neredeyse imkansızdır.
Çoğu AI modelinin çalışma şekli, öğrendiği hiçbir şeyi unutmaması veya daha doğrusu silmesidir. Bu, kategorik olarak yanlış olan şeyleri içerir. Geliştiriciler, ürettiği çıktıya filtreler koyabilir, ancak AI modeli yine de o factoid parçasını kendi içinde barındırır ve onu çalışmalarında kullanır.
Geliştiriciler hatalı veriler veya halüsinasyon altında oluşturulmuş bir veri seti kullanıyorsa, ortaya çıkan yapay zeka botu da hatalı sonuçlar üretecektir.
Ve sadece üretilen sonuçlar hatalı olmayabilir, aynı zamanda önyargılı da olabilirler. Wikipedia’da yapay zeka tarafından oluşturulmuş birkaç içerik buna harika bir örnek olabilir. Önyargılı makaleler, belirli bir AI modelini eğitmek için kullanıldı ve bu da, komik bir şekilde yanlış olan “gerçekler” ile dolu oldukları noktaya kadar öncekinden daha önyargılı makaleler üretti.