Resim: Microsoft.
Dil modelleri ve üretken yapay zeka (AI) hakkında konuştuğumuzda, genellikle LLM (Büyük Dil Modeli için) olarak da adlandırılan büyük dil modellerini düşünürüz. Bu LLM’ler, ChatGPT, Bard ve Copilot gibi en popüler sohbet robotlarına güç veriyor. Ancak Microsoft’un ortaya çıkardığı yeni dil modeli, küçük dil modellerinin (SLM) de bu alanda bir geleceğe sahip olduğunun kanıtıdır.
Bu Çarşamba, Microsoft böylece Phi-2’yi başlattıDilimizi akıl yürütme ve anlama yeteneğine sahip küçük bir dil modeli. Şablon artık Azure AI Studio şablon kataloğunda mevcuttur.
Küçüklerin arasında büyük olan
“Küçük” sadece isimdir. Phi-2, modelinde 2,7 milyar parametre içeriyor; bu, “yalnızca” 1,3 milyar olan Phi-1,5’ten büyük bir sıçrama.
Kompakt olmasına rağmen Microsoft’un yeni modeli, 13 milyardan az parametreyle benzerleri arasında “öncü performans” sergiliyor. Üreticisine göre, karmaşık kıyaslama testlerinde 25 kata kadar daha büyük modellerden bile daha iyi performans gösteriyor.
Phi-2, Meta, Mistral’ın Llama-2 modellerinden ve hatta Google’ın en verimli LLM’si Gemini’nin en küçük versiyonu olan Gemini Nano 2’den çeşitli kıyaslamalarda belirgin şekilde daha iyi performans gösteriyor:
Resim: Microsoft.
Daha büyük modellerle karşılaştırılabilir SLM’leri eğitin
Yeni dil modelinin performansı, Microsoft’un Phi ile birlikte ortaya çıkan yeteneklere ve daha büyük ölçekli modellerle karşılaştırılabilir performansa sahip bir SLM geliştirme hedefleriyle tutarlıdır.
Nuance Microsoft, “Bu tür ortaya çıkan yeteneklerin, eğitim için stratejik seçimler (örneğin, veri seçimi) kullanılarak daha küçük bir ölçekte elde edilip edilemeyeceğini zaman gösterecek” dedi. “Phi modelleri üzerindeki çalışmamız, daha büyük ölçekli modellerle karşılaştırılabilir performans elde eden SLM’leri eğiterek bu soruyu yanıtlamayı amaçlıyor (her ne kadar bunlar hala en popüler modellerden uzak olsa da). »
Phi-2’yi eğitirken Microsoft, kullanılan veriler konusunda çok seçici davrandı. Şirket ilk olarak “el yazısı kalitesi” verisi olarak adlandırdığı verileri kullandı. Microsoft daha sonra eğitimsel değeri ve içeriğinin kalitesine göre filtrelenmiş, özenle seçilmiş web verilerini ekleyerek veritabanını zenginleştirdi.
SLM’ye olan bu ilgi neden?
SLM’ler LLM’lere uygun maliyetli bir alternatiftir. Bu daha küçük modeller aynı zamanda yüksek lisans diplomasının gücüne ihtiyaç duymayan, daha az zorlu görevlerin yerine getirilmesi için de kullanışlıdır.
Ek olarak, SLM’leri çalıştırmak için gereken bilgi işlem gücü, LLM’lerden çok daha azdır. Bu azaltılmış gereksinim, kullanıcıların veri işleme ihtiyaçlarını karşılamak için mutlaka pahalı GPU’lara yatırım yapmalarına gerek olmadığı anlamına gelir.
Kaynak : ZDNet.com