Önümüzdeki birkaç yıl içinde veri kümesi boyutu problemini en aza indirebilecek bir diğer faktör de yapılandırılmamış verilerde beklenen bir artıştır. Gerçekten de, işletmeleri ve müşterilerini izleyen video dronları tarafından toplananlar gibi son derece yapılandırılmamış veriler, video analizi doğrudan yakalanabildiğinden ve birçok farklı dilde kaydedilebileceğinden, dil sorunlarını tamamen azaltabilir.
İngilizce olmayan diller için yüksek kaliteli verilerin hacmi çok daha güçlü hale gelene kadar-önümüzdeki birkaç yıl içinde daha fazla yapılandırılmamış, özel ve dil-agnostik verilerle yavaş yavaş gerçekleşebilecek bir şey-CIO’ların model satıcılarından daha iyi cevaplar talep etmesi gerekiyor. Tüm İngilizce olmayan modeller için eğitim verileri.
Diyelim ki bir Global CIO, bir LLM satıcısından çok çeşitli dillerde 118 model satın alıyor. CIO paket için belki 2 milyar dolar ödüyor. Satıcı, CIO’ya tüm bu İngilizce olmayan modeller üzerinde ne kadar az eğitim yapıldığını söylemez ve kesinlikle bu eğitim verilerinin nereden geldiğini söylemez. Eğer satıcılar her iki noktada da tamamen şeffaf olsaydı, CIO’lar İngiliz modeli dışındaki her şey için fiyatlandırmaya geri dönecekti.
Buna karşılık, model yapımcılar muhtemelen İngilizce olmayan modeller için CIO’ları daha az ücretlendirmeyecek, bunun yerine bu modellerin doğruluğunu artırmak için daha fazla eğitim verisi bulma çabalarını artıracaklardır.
İşletmelerin Genai’ye harcadığı büyük miktarda para göz önüne alındığında, havuç açıktır. Çubuk? Belki CIO’ların rahatlık alanlarından çıkması ve ihtiyaç duydukları her dilde bölgesel satıcılardan İngilizce olmayan modellerini almaya başlamaları gerekir.
Bu büyük ölçekte olmaya başlarsa, büyük model üreticileri aniden veri eğitimi şeffaflığının değerini görebilir.


