Nvidia ve Mistral AI, küçük bir ayak izinde “son teknoloji” doğruluğu içerdiği iddia edilen yeni bir küçük dil modeli yayınladı. Yeni LM, Mistral-NemMo-Minitron 8B12 milyardan 8 milyara düşürülmüş parametreli NeMo 12B’nin minyatürleştirilmiş versiyonu.

Nvidia’da derin öğrenme araştırmalarından sorumlu başkan yardımcısı Bryan Catanzaro, yeni 8 milyar parametreli küçük dil modelinin iki farklı yapay zeka optimizasyon yöntemi kullanılarak küçültüldüğünü söyledi. bir blog yazısında. Yeni LM’nin arkasındaki ekip, budama ve damıtmayı birleştiren bir süreç kullandı. “Budama, doğruluğa en az katkıda bulunan model ağırlıklarını kaldırarak bir sinir ağını küçültür. Damıtma sırasında ekip, bu budanmış modeli küçük bir veri kümesi üzerinde yeniden eğiterek budama süreciyle azalan doğruluğu önemli ölçüde artırdı.”



genel-21