Çinli kuruluşların Nvidia gibi şirketlerin on binlerce gelişmiş AI GPU’suna erişimi olmadığından, bu ülkedeki şirketlerin gelişmiş AI modellerini eğitmek için yenilik yapması gerekiyor. Kai-Fu Lee, kurucusu ve başkanı 01.aibu hafta şirketinin yalnızca 3 milyon dolar ile 2.000 GPU kullanan gelişmiş yapay zeka modellerinden birini eğittiğini söyledi.
Kai-Fu Lee, “Silikon Vadisi’ndeki arkadaşlarımı şok eden şey sadece performansımız değil, aynı zamanda modeli yalnızca 3 milyon dolarla eğitmemiz ve GPT-4’ün 80 ila 100 milyon dolarla eğitilmiş olması” dedi (via @tsarnick). “GPT-5’in yaklaşık bir milyar dolarla eğitildiği söyleniyor. […] Hukukun ölçeklendirilmesine inanıyoruz, ancak mükemmel detaylı mühendislik yaptığınızda durum böyle değil. […] Çin’deki bir şirket olarak öncelikle ABD düzenlemeleri nedeniyle GPU’lara sınırlı erişimimiz var [and a valuation disadvantage compared to American AI companies].”
Kai-Fu Lee’ye göre, GPT-4’ü eğitmek için 80-100 milyon dolar ve GPT-5 için 1 milyar dolara kadar harcayan OpenAI gibi rakiplerinin aksine, 01.ai yüksek performanslı modelini yalnızca 3 milyon dolarla eğitti. Şirketin web sitesi grafiğine göre 01.ai’nin Yi-Lightning’i, UC Berkeley’de LMSIS tarafından ölçülen model performansında altıncı sırada yer alıyor.
Bu başarı elbette şirketin etkileyici maliyet verimliliği nedeniyle özellikle dikkate değerdir. Dikkatli mühendislik ve hedefe yönelik optimizasyonlar maliyetin ve bilgi işlem kaynaklarının çok altında bir maliyetle benzer sonuçlar verebileceğinden, aradaki keskin fark, üst düzey yapay zeka yeteneklerine ulaşmanın her zaman çok büyük bütçeler gerektirmediğini gösteriyor.
OpenAI’nin GPT-3 modelini eğitmek için 10.000 Nvidia A100 GPU’yu ve GPT-4 ve GPT-4o modellerini eğitmek için çok daha fazla H100 işlemciyi kullandığına inanılıyor. Çeşitli yenilikçi çözümler kullanan 01.ai, Yi-Lightning modelini 2.000 açıklanmayan GPU kullanarak eğitmek zorunda kaldı. Ancak geçen yıl Kai-Fu Lee, şirketinin 1,5 yıl boyunca yol haritasını uygulamaya yetecek kadar GPU’ya sahip olduğunu söyledi. Ancak sayılar birbirini tutmuyor. Bir Nvidia H100 GPU’nun maliyeti yaklaşık 30.000 ABD dolarıdır, yani bu türden iki bin GPU’nun maliyeti 6 milyon ABD dolarıdır.
Model performansını artırmak için 01.ai, hesaplama taleplerini bellek odaklı görevlere dönüştürerek, çok katmanlı bir önbellekleme sistemi oluşturarak ve hızı ve kaynak tahsisini optimize etmek için özel bir çıkarım motoru tasarlayarak çıkarım sürecindeki darboğazları azaltmaya odaklandı. Sonuç olarak, ZeroOne.ai’nin çıkarım maliyetleri benzer modellere göre çok daha düşük (milyon token başına 10 sent), karşılaştırılabilir modellerin ücretlendirdiği tipik oranın yaklaşık 1/30’u kadar.
Kai-Fu Lee, “Yalnızca 2000 GPU’muz olduğunda, ekibin bunu nasıl kullanacağını bulması gerekiyor” dedi. “CEO olarak buna nasıl öncelik vereceğimize karar vermem gerekiyor ve o zaman sadece eğitimi hızlı hale getirmekle kalmıyoruz, aynı zamanda çıkarımları da hızlı yapmalıyız. Dolayısıyla çıkarımımız, bir hesaplama problemini bir hafıza problemine dönüştürmeye çalışarak, çok katmanlı bir önbellek oluşturarak, belirli bir çıkarım motoru oluşturarak vb. tüm süreçteki darboğazları tespit ederek tasarlanmıştır. Ancak sonuç olarak çıkarım maliyetimiz milyon token başına 10 senttir.”
Genel olarak Çinli şirketler ve özel olarak 01.ai önemli zorluklarla karşı karşıya. ABD ihracat kısıtlamaları nedeniyle gelişmiş GPU’lara minimum erişime sahipler. Ayrıca Amerikan yapay zeka şirketlerine kıyasla, mevcut kaynaklarını ve yatırım fırsatlarını etkileyen bir değerleme dezavantajına da sahipler.