Çoğu teknoloji şirketi ve yapay zeka stüdyosu, Doğal Dil İşleme’de Büyük Dil Modelleri üzerinde çalışırken Microsoft, en hızlı küçük dil modellerinden (SLM) biri olan Phi-2’yi piyasaya sürdü. SLM’lerin ChatGPT gibi LLM’lere göre belirgin bir avantajı vardır
Yapay zeka ve Yüksek Lisans (Büyük Dil Modelleri) dünyasında çığır açan bir hamleyle Microsoft, kompakt veya küçük bir dil modeli (SLM) olan Phi-2’yi tanıttı. Phi-1.5’in yükseltilmiş bir sürümü olarak konumlandırılan Phi-2’ye şu anda Azure AI Studio model kataloğu aracılığıyla erişilebilmektedir.
Microsoft, bu yeni modelin çeşitli üretken yapay zeka kıyaslama testlerinde Llama-2, Mistral ve Gemini-2 gibi daha büyük benzerlerini geride bırakabileceğini iddia ediyor.
Satya Nadella’nın Ignite 2023’te yaptığı duyurunun ardından bu hafta başında tanıtılan Phi-2, Microsoft’un araştırma ekibinin çabalarının bir sonucudur.
İlgili Makaleler
IBM, Meta ve diğer teknoloji şirketleri, OpenAI ve Google gibi yapay zekanın ‘büyük kötü çocukları’ ile mücadele etmek için ittifak kuruyor
Microsoft-Activision birleşme anlaşması yine sorunlu sularda, yeni soruları gündeme getiriyor
Üretken yapay zeka modelinin “sağduyu”, “dili anlama” ve “mantıksal akıl yürütme” gibi özelliklere sahip olduğu öne sürülüyor. Microsoft, Phi-2’nin belirli görevlerde kendi boyutunun 25 katı modellerden bile daha iyi performans gösterebileceğini iddia ediyor.
Sentetik veri kümeleri, genel bilgi, zihin teorisi, günlük aktiviteler ve daha fazlasını içeren “ders kitabı kalitesinde” veriler kullanılarak eğitilen Phi-2, bir sonraki kelime tahmin hedefi gibi yeteneklere sahip dönüştürücü tabanlı bir modeldir.
Microsoft, Phi-2 eğitiminin, on binlerce A100 Tensor Core GPU kullanılarak yapılan eğitimin yaklaşık 90-100 gün sürdüğü bildirilen GPT-4 gibi daha büyük modellere kıyasla daha basit ve uygun maliyetli olduğunu belirtiyor.
Phi-2’nin yetenekleri, karmaşık matematiksel denklemleri ve fizik problemlerini çözmenin yanı sıra öğrenci hesaplamalarındaki hataları tespit edebildiği için dil işlemenin ötesine geçer. Sağduyulu akıl yürütme, dil anlama, matematik ve kodlamayı kapsayan kıyaslama testlerinde Phi-2, 13B Llama-2 ve 7B Mistral gibi modellerden daha iyi performans gösterdi.
Özellikle, 70B Llama-2 LLM’yi önemli bir farkla geride bırakıyor ve hatta Google Pixel 8 Pro’da yerel olarak çalışmak üzere tasarlanmış 3,25B model olan GoogleGemini Nano 2’den bile daha iyi performans gösteriyor.
Hızla gelişen doğal dil işleme alanında, küçük dil modelleri, çok daha yaygın olan LLM’lere veya büyük dil modellerine göre belirli kullanım senaryolarına ve bağlamsal ihtiyaçlara hitap eden bir dizi avantaj sunan güçlü rakipler olarak ortaya çıkıyor. Bu avantajlar dil işleme teknolojilerinin manzarasını yeniden şekillendiriyor. Kompakt dil modellerinin bazı önemli avantajları şunlardır:
Hesaplama Verimliliği: Küçük dil modelleri, hem eğitim hem de çıkarım için daha az hesaplama gücü gerektirir; bu da onları sınırlı kaynaklara sahip kullanıcılar veya daha düşük bilgi işlem kapasitesine sahip cihazlar için daha uygun bir seçenek haline getirir.
Hızlı Çıkarım: Daha küçük modeller daha hızlı çıkarım sürelerine sahiptir ve bu da onları düşük gecikmenin başarı için çok önemli olduğu gerçek zamanlı uygulamalar için çok uygun hale getirir.
Kaynak Dostu: Kompakt dil modelleri, tasarımları gereği daha az bellek kullanır ve bu da onları akıllı telefonlar veya uç cihazlar gibi kısıtlı kaynaklara sahip cihazlarda dağıtım için ideal kılar.
Verimli enerji: Küçük modeller, küçültülmüş boyutları ve karmaşıklıkları nedeniyle, hem eğitim hem de çıkarım sırasında daha az enerji tüketerek, enerji verimliliğinin kritik öneme sahip olduğu uygulamalara hitap eder.
Azaltılmış Eğitim Süresi: Daha küçük modellerin eğitimi, daha büyük modellere kıyasla zaman açısından verimli bir süreç olup, hızlı model yinelemesi ve dağıtımının gerekli olduğu senaryolarda önemli bir avantaj sağlar.
Gelişmiş Yorumlanabilirlik: Daha küçük modellerin yorumlanması ve anlaşılması genellikle daha kolaydır. Bu, tıbbi veya hukuki bağlamlarda görüldüğü gibi, model yorumlanabilirliğinin ve şeffaflığın çok önemli olduğu uygulamalarda özellikle önemlidir.
Uygun Maliyetli Çözümler: Küçük modellerin eğitimi ve konuşlandırılması hem hesaplama kaynakları hem de zaman açısından daha ucuzdur. Bu erişilebilirlik, onları bütçe kısıtlaması olan bireyler veya kuruluşlar için uygun bir seçim haline getirir.
Belirli Etki Alanları için Özelleştirildi: Belirli niş veya alana özgü uygulamalarda, daha küçük bir model, büyük, genel amaçlı bir dil modelinden daha yeterli ve daha uygun olabilir.
Küçük ve büyük dil modelleri arasındaki kararın her görevin özel gereksinimlerine bağlı olduğunu vurgulamak çok önemlidir. Büyük modeller, çeşitli verilerdeki karmaşık kalıpları yakalamada başarılı olurken, küçük modellerin verimlilik, hız ve kaynak kısıtlamalarının öncelikli olduğu senaryolarda paha biçilmez olduğu kanıtlanıyor.
(Kurumlardan gelen girdilerle)