Fujitsu’nun Fugaku süper bilgisayarı artık Top 500 süper bilgisayar listesinde dünyanın en hızlı makinesi olmasa da hâlâ çok yetenekli bir sistem ve A64FX işlemcinin çok yönlülüğü, yapay zeka gibi çeşitli iş yükleri için kullanılmasına olanak tanıyor. Bu hafta Fujitsu, hem araştırma hem de ticari uygulamalar için tasarlanmış, gelişmiş Japonca dil işleme yeteneklerine sahip büyük bir dil modeli olan Fugaku-LLM’yi piyasaya sürdü.
Fujitsu’nun Fugaku-LLM’si, çeşitli yapay zeka ve geleneksel süper bilgisayar uygulamaları için FP64, FP32, FP16 ve INT8 modlarını destekleyen A64FX işlemciyi temel alan Fugaku süper bilgisayarının 13.824 düğümünde 380 milyar jeton kullanılarak eğitildi. Fugaku-LLM’nin eğitimi doğal olarak süper bilgisayarın mimarisi ve Tofu ara bağlantısı D için optimize edilmiş dağıtılmış paralel öğrenme tekniklerinden yararlandı.
Fugaku-LLM, Japonya’da şimdiye kadar eğitilen en büyük LLM olan GPT-4’ün 175 milyar parametresine kıyasla soluk görünen 13 milyar parametreye sahiptir. Fujitsu, 13 milyar parametreli LLM’nin çıkarım yapmak için çok büyük bilgi işlem kaynakları gerektirmediğini ve bunun Japonya’daki işletmeler ve araştırmacılar için ideal olacağını söylüyor. Eğitim verilerinin yaklaşık %60’ı Japonca idi ve verilerin %40’ı İngilizce, matematik ve kod verileriydi.
Bu kapsamlı Japon merkezli eğitim, onu öncelikle İngilizce veri kümeleri üzerinde eğitilen diğer Japon modellerinden ayırıyor. Sonuç olarak Fugaku-LLM, Japonca’da üstün yeterliliğe sahiptir ve Japon MT-Bench’te ortalama 5,5 puan elde ederek, Japonya’dan orijinal verilerle eğitilmiş, açık olarak mevcut modeller arasında en yüksek puanı elde etmiştir. Fujitsu’ya göre özellikle beşeri bilimler ve sosyal bilimlerde 9,18 gibi etkileyici bir kıyaslama puanı elde ederek öne çıkıyor.
Fugaku-LLM girişimi, Tokyo Teknoloji Enstitüsü, Tohoku Üniversitesi, Fujitsu Limited, RIKEN, Nagoya Üniversitesi, CyberAgent ve Kotoba Technologies gibi önde gelen Japon kurumları arasındaki işbirlikleriyle yürütülmektedir. İşbirliği yapmalarının nedenlerinden biri, genellikle yapay zeka modellerini eğitmek ve çıkarım yapmak için kullanılan GPU’ların eksikliğiydi. Diğer bir neden ise modelin Fujitsu’nun hem yapay zeka hem de HPC iş yükleri için optimize edilmiş yeni nesil 150 çekirdekli Monaka veri merkezi CPU’su ile kullanılabilmesidir.
Fugaku-LLM artık GitHub ve Hugging Face’in belirli lisanslama koşulları altında hem akademik hem de ticari amaçlarla sunulmaktadır (ancak Fujitsu herhangi bir bağlantı sağlamamıştır). Ayrıca 10 Mayıs 2024’ten itibaren Fujitsu Araştırma Portalı aracılığıyla da sunulacak.