
Nvidia ve Mistral AI, küçük bir ayak izinde “son teknoloji” doğruluğu içerdiği iddia edilen yeni bir küçük dil modeli yayınladı. Yeni LM, Mistral-NemMo-Minitron 8B12 milyardan 8 milyara düşürülmüş parametreli NeMo 12B’nin minyatürleştirilmiş versiyonu.
Nvidia’da derin öğrenme araştırmalarından sorumlu başkan yardımcısı Bryan Catanzaro, yeni 8 milyar parametreli küçük dil modelinin iki farklı yapay zeka optimizasyon yöntemi kullanılarak küçültüldüğünü söyledi. bir blog yazısında. Yeni LM’nin arkasındaki ekip, budama ve damıtmayı birleştiren bir süreç kullandı. “Budama, doğruluğa en az katkıda bulunan model ağırlıklarını kaldırarak bir sinir ağını küçültür. Damıtma sırasında ekip, bu budanmış modeli küçük bir veri kümesi üzerinde yeniden eğiterek budama süreciyle azalan doğruluğu önemli ölçüde artırdı.”
Bu optimizasyonlar, geliştiricilerin optimize edilmiş dil modelini “orijinal veri setinin bir kısmı” üzerinde eğitmelerine olanak tanıyarak ham hesaplama açısından 40 kata kadar maliyet tasarrufu sağladı. Normalde, AI modelleri model boyutu ve doğruluk arasında denge kurmak zorundadır, ancak Nvidia ve Mistral AI’nın yeni budama ve damıtma teknikleriyle dil modelleri her iki dünyanın da en iyisine sahip olabilir.
Bu geliştirmelerle donatılmış Mistral-NeMo-Minitron 8B, benzer bir boyuta sahip dokuz dil odaklı AI kıyaslamasına öncülük ediyor. Tasarruf edilen bilgi işlem gücü miktarı, dizüstü bilgisayarlar ve iş istasyonu PC’lerinin Minitron 8B’yi yerel olarak çalıştırması için yeterlidir ve bu da onu bulut hizmetlerine kıyasla daha hızlı ve daha güvenli hale getirir.
Nvidia, Minitron 8B’yi tüketici tabanlı bilgisayar donanımları etrafında tasarladı. LM, bir Nvidia NIM mikro servisi olarak paketlendi ve AI modeli, yanıt sürelerini iyileştiren düşük gecikme için optimize edildi. Nvidia, Minitron 8B’yi alıp akıllı telefonlar gibi daha da az güçlü sistemlerde çalışması için manipüle etmek üzere özel model hizmeti AI Foundry’yi sağlıyor. Doğruluk ve performans o kadar iyi olmayacak, ancak Nvidia modelin yine de yüksek doğrulukta bir LM olacağını ve aksi takdirde ihtiyaç duyacağı eğitim verilerinin ve hesaplama altyapısının bir kısmını gerektireceğini iddia ediyor.
Budama ve damıtma, yapay zeka performans optimizasyonu için bir sonraki sınır gibi görünüyor. Teorik olarak, geliştiricilerin bu optimizasyon tekniklerini tüm mevcut dil modellerine uygulamasını engelleyen hiçbir şey yok, bu da yalnızca yapay zeka hızlandırmalı sunucu çiftlikleri tarafından desteklenebilen büyük dil modelleri de dahil olmak üzere genel performansı önemli ölçüde artıracaktır.

