Sınırlamalarına rağmen iyi sonuç veren bir mini dil modeli: denemesi ilginç ve küçük dil modelleri olarak adlandırılan şeyin sınırında yer almak için kullanışlı. Ve bunu giderek akıllı telefonlara, Nesnelerin İnterneti nesnelerine, ev otomasyonuna, ATM’lere vb. entegre halde bulacağız.
Microsoft’un tasarladığı en küçük yapay zeka modeli olan Phi3’ün küçük bir testinden alabileceğimiz duyumlar bunlar.
Herkesin açık kaynaklı modelleri denemesine olanak tanıyan basit bir arayüze sahip Lm Studio yazılımı üzerinde yapılan bir test.

Phi3’ün özellikleri

Microsoft şimdi bu daha güçlü ve daha küçük dil modelleri ailesinin ilkini kamuoyunun kullanımına sunuyor: Şirket tarafından yapılan testlere göre 3,8 milyar parametre ölçen ve iki katı büyüklükteki modellerden daha iyi performans gösteren Phi-3-mini. Dilsel yorumlama, kodlama ve matematik için Microsoft, kalite ve maliyet açısından daha fazla seçenek sunmak üzere Phi-3 ailesindeki diğer modellerin de yakında geleceğini duyurdu. Phi-3-küçük (7 milyar parametre) ve Phi-3-orta (14 milyar parametre). Temel fikir, modelleri yalnızca 4 yaşındaki bir çocuğun anlayabileceği sözcükleri kullanarak eğitmek, ancak eğitimi optimize etmek için yalnızca yüksek kaliteli verileri seçmektir.

Küçük dil modelleri, basit görevleri iyi bir şekilde gerçekleştirmek için tasarlanmıştır ve sınırlı kaynaklara sahip kuruluşlar için daha erişilebilir ve kullanımı kolaydır. Avantajları, bunları düşük güçlü cihazlarda bile, internet olmadan (veya zayıf bir ağla) ve girilen verilerin tamamen gizliliğiyle (her şey cihazınızda kalır) kullanma olasılığıdır. Güçlü bilgisayarlarda kullanıldığında bu modeller OpenAI’nin Gpt’si gibi büyük modellerden bile daha hızlıdır. Microsoft ve çeşitli araştırmacıların yaptığı testler, bu modellerin kültürel ve bilimsel konulardaki sınırlarını ortaya koyuyor; karmaşık akıl yürütmeler yapmaları, yenilikçi uygulamalar yapmaları istendiğinde (örneğin tıpta); veya büyük miktarda bilgiyi analiz etmeleri gerektiğinde. Klasik büyük modellerin daha uygun olduğu tüm durumlar. Ne yazık ki, testimizde bulduğumuz Phi3’ün bilinen bir başka sınırlaması da çok dilli olmasıdır: İngilizce ile çok daha iyi başa çıkmaktadır. Bu sınırlamalar, eğitim için kullanılan bilgilerin sınırlı miktarda olmasından kaynaklanmaktadır. Model, gerçek anlamda daha az şey biliyor ve dilsel yorumlama yeteneğindeki sınırlamalar nedeniyle daha fazla halüsinasyon eğilimi gösteriyor. Bu kusurlar, modeli bir web aramasıyla birleştirerek veya özetlenecek veya analiz edilecek bir metin gibi girdide işlenecek veriler (sözde birkaç çekim) sağlanarak kısmen telafi edilebilir. Phi-3 gibi bir model: uzun bir belgeyi özetleyin; araştırma veya pazar raporlarından ilgili bilgileri ve sektör eğilimlerini çıkarın. Pazarlama veya satış için metinler oluşturun, sosyal medyada paylaşımlar yapın veya e-ticaret için ürün açıklamaları yapın. Veya şirket kendisine en sık sorulan soruları ve verilecek yanıtları verirse müşteri desteği için bir sohbet robotu haline gelebilir.

Phi3 testi

Testimiz için Lm Studio’yu kullandık. Kurulumdan sonra Ana Sayfa çubuğuna veya aramaya (sol menüdeki büyüteç) Phi3 yazıyoruz. Burada aralarından seçim yapabileceğiniz çeşitli dosyalar göreceksiniz. Daha küçük olan Q4 versiyonu ve F16 versiyonu var. Birincisi 4 bit’e kuantize edilir, yani sıkıştırılır. Bilgisayarda 16 floplu (bir saniyede gerçekleştirilen kayan nokta işlemlerinin sayısını gösteren bir değer) F16’yı kullanmak daha iyi olacaktır. Daha büyüktür ve daha fazla GPU gücü gerektirir, ancak sonuçta çok yavaş olmayan bir bilgisayarın erişebileceği yerdedir. Sonra soldaki buluta (sohbet) tıklıyoruz ve üstteki açılır menüden seçiyoruz. Daha sonra ücretsiz Chatgpt’te (sürüm 3.5) yaptığımız gibi sorular ve istekler sormaya başlıyoruz. Phi3’ün her iki versiyonuna da karbonara makarnanın nasıl yapılacağını sorduk (gerçek bilgi testi); q4 versiyonu, pişmiş jambonlu bir vejetaryen çeşidi (biz sormadan) önermeye cesaret etti. Ancak F16 iyidir. Klasik bir dilsel yorumlama testi – bir tuğlanın ağırlığı bir kilo artı yarım tuğladır, bir tuğlanın ağırlığı ne kadardır? – çeşitli testlerde 4. çeyrekte sıklıkla hata yapıyor ve F16’da daha az sıklıkla hata yapıyor. Ancak testlerimizde bunu her zaman yalnızca Gpt4 (3.5 değil) çözmektedir. Chatbotlarda sıklıkla olduğu gibi, onlardan adım adım düşünmelerini istersek, yani onları sorunu çözmeye zorlarsak (doğru cevap 2 kilodur) çıktılar artar. Ardından Phi3’ün üstün olması gereken (Microsoft’un beyanına göre) sosyal sağduyuyu anlama testi: Lucia, Franco’ya şöyle diyor: “Sana bir sır vermem gerekiyor”; Franco Lucia’ya yaklaşıyor, bunu neden yaptı? Doğru cevap, yani öncüllere göre en makul olanı – ve hem Gpt 3.5 hem de Gpt 4 bunu sunuyor – “konuşmayı özel ve gizli tutarken sırrı duymaktır”. Phi3 bunun etrafından dolaşıyor, çeşitli açıklamalar yapıyor, hatta “Franco belki de romantik bir yaklaşım arıyor” gibi hayal ürünü açıklamalar (halüsinasyonlar) veriyor. Ancak bir metnin sentezini test etmek için söylenecek bir şey yok.

Sonuç olarak Phi3’ü denemeniz birçok kişiye tavsiye edilir: Bu modelin kurumsal ortamda gelecekte benimsenmesi için uygulanabilirliğini değerlendirmek veya genel olarak mevcut küçük modellerin üretken yapay zekanın sürekli gelişimi bağlamında potansiyelini anlamak isteyenlere.



genel-18