Elon Musk, yapay zeka modellerini eğitmek için çok az gerçek dünya verisi kaldığı konusunda diğer yapay zeka uzmanlarıyla aynı fikirde.
“Artık temelde insan bilgisinin kümülatif toplamını tükettik…. Musk, Stagwell başkanı Mark Penn ile Çarşamba günü geç saatlerde X’te yayınlanan canlı yayınlanan bir görüşme sırasında yapay zeka eğitiminde “dedi. “Bu aslında geçen yıl oldu.”
Yapay zeka şirketi xAI’nin sahibi olan Musk, eski OpenAI baş bilimcisi Ilya Sutskever’in makine öğrenimi konferansı NeurIPS’de Aralık ayında yaptığı bir konuşmada değindiği temaları yineledi. Yapay zeka endüstrisinin “en yüksek veri” olarak adlandırdığı seviyeye ulaştığını söyleyen Sutskever, eğitim verilerinin eksikliğinin, modellerin bugünkü geliştirilme biçiminden uzaklaşmaya zorlayacağını öngördü.
Gerçekten de Musk, sentetik verilerin (yapay zeka modellerinin kendileri tarafından üretilen veriler) ileriye giden yol olduğunu öne sürdü. “Takviye etmenin tek yolu [real-world data] Yapay zekanın oluşturduğu sentetik verilerle [training data]dedi. “Sentetik verilerle… [AI] bir nevi kendi kendine not verecek ve bu kendi kendine öğrenme sürecinden geçecek.
Microsoft, Meta, OpenAI ve Anthropic gibi teknoloji devleri de dahil olmak üzere diğer şirketler, amiral gemisi yapay zeka modellerini eğitmek için halihazırda sentetik verileri kullanıyor. Gartner’ın tahminler 2024 yılında yapay zeka ve analiz projeleri için kullanılan verilerin %60’ı sentetik olarak oluşturuldu.
Microsoft’un Çarşamba günü erken saatlerde açık kaynaklı olan Phi-4’ü, gerçek dünya verilerinin yanı sıra sentetik veriler üzerinde de eğitildi. Google’ın Gemma modelleri de öyle. Anthropic, en performanslı sistemlerinden biri olan Claude 3.5 Sonnet’i geliştirmek için bazı sentetik verileri kullandı. Ve Meta, yapay zeka tarafından oluşturulan verileri kullanarak en yeni Llama serisi modellerine ince ayar yaptı.
Sentetik verilerle ilgili eğitimin maliyet tasarrufu gibi başka avantajları da vardır. Yapay zeka girişimi Writer, neredeyse tamamen sentetik kaynaklar kullanılarak geliştirilen Palmyra X 004 modelinin geliştirme maliyetinin yalnızca 700.000 dolar olduğunu iddia ediyor — karşılaştırıldı karşılaştırılabilir büyüklükteki bir OpenAI modeli için 4,6 milyon dolarlık tahminler.
Ancak dezavantajları da var. Bazı araştırmalar, sentetik verilerin modelin çökmesine yol açabileceğini, modelin çıktılarında daha az “yaratıcı” ve daha önyargılı hale geldiğini ve sonunda işlevselliğinden ciddi şekilde ödün verebileceğini öne sürüyor. Modeller sentetik veriler oluşturduğundan, bu modelleri eğitmek için kullanılan verilerin önyargıları ve sınırlamaları varsa, çıktıları da benzer şekilde kusurlu olacaktır.

