Microsoft duyurdu Daha küçük, daha çevik yapay zeka (AI) modelleri paketinin bir sonraki üyesi daha spesifik kullanım durumlarını hedef alır.

Bu ayın başında Microsoft, Phi-1, küçük dil modelleri (SLM’ler) adını verdiği modellerin ilki; büyük dil modeli (LLM) öncüllerine göre çok daha az parametreye sahiptirler. Örneğin, ChatGPT’nin temeli olan GPT-3 LLM’nin 175 milyar parametresi vardır. OpenAI’nin en son LLM’si olan GPT-4’ün yaklaşık 1,7 trilyon parametresi vardır. Phi-1 takip etti Phi-1.5karşılaştırıldığında 1,3 milyar parametreye sahiptir.

Phi-2, şirketin 25 kata kadar daha büyük LLM’lerden daha iyi performans gösterebileceğini iddia ettiği 2,7 milyar parametreli bir dil modelidir.

Microsoft, bir yıldan biraz daha uzun bir süre önce piyasaya sürülen ChatGPT’nin geliştiricisi OpenAI’nin büyük bir hissedarı ve ortağıdır. Microsoft, Copilot üretken yapay zeka asistanının temeli olarak ChatGPT’yi kullanıyor.

ChatGPT veya Bard gibi üretken AI (genAI) uygulamaları için kullanılan LLM’ler, büyük miktarda işlemci döngüsü tüketebilir ve boyutları nedeniyle belirli kullanım senaryolarına yönelik eğitimler maliyetli ve zaman alıcı olabilir. Daha küçük, daha endüstri veya iş odaklı modeller genellikle iş ihtiyaçlarına göre uyarlanmış daha iyi sonuçlar sağlayabilir.

Gartner Research’ün başkan yardımcısı seçkin analistlerinden Avivah Litan, “Eninde sonunda, GPU çiplerinin ölçeklendirilmesi model boyutundaki artışlara ayak uyduramayacak” dedi. “Yani modelleri giderek büyütmeye devam etmek geçerli bir seçenek değil.”

Şu anda, LLM’leri daha uygun maliyetli hale getirmek ve finansal hizmet müşterileri için çevrimiçi sohbet robotları veya elektronik sağlık hizmetleri kayıtlarını özetleyebilen genAI uygulamaları gibi alana özgü görevler için eğitilebilecek hale getirmek için küçültme yönünde büyüyen bir eğilim var.

Hedeflenen veriler üzerinde eğitilmiş daha küçük, daha alana özgü dil modelleri Sonunda OpenAI’nin GPT 4’ü, Meta AI’nın LLaMA 2’si veya Google’ın PaLM 2’si dahil olmak üzere günümüzün önde gelen LLM’lerinin hakimiyetine meydan okuyacak.

Ernst & Young’ın Küresel Yapay Zeka Danışmanlık Lideri Dan Diasio, şu anda GPU siparişlerinin birikmiş olduğunu belirtti. Çip kıtlığı, yalnızca Yüksek Lisans yapan teknoloji firmaları için değil, aynı zamanda modellerde ince ayar yapmak veya kendi özel Yüksek Lisans’larını oluşturmak isteyen kullanıcı şirketleri için de sorun yaratıyor.

Diasio, “Sonuç olarak, ince ayar yapma ve uzmanlaşmış bir kurumsal LLM oluşturmanın maliyetleri oldukça yüksektir, bu da bilgi geliştirme paketlerine ve uzmanlık bilgisi içeren bilgi istemleri kütüphaneleri oluşturmaya yönelik eğilimi artırıyor” dedi.

Microsoft, kompakt boyutuyla Phi-2’yi, mekanik yorumlanabilirlik, güvenlik iyileştirmeleri veya çeşitli görevlerde ince ayar deneyleri dahil olmak üzere “araştırmacılar için ideal bir oyun alanı” olarak tanıtıyor. Phi-2 Azure AI Studio model kataloğunda mevcuttur.

Chalmers Üniversitesi’nin eski yapay zeka araştırma mühendisi ve CTO’su ve başlangıçta kurucu ortaklardan biri olan Victor Botev’e göre, “Yapay zekanın yalnızca milyar sterlinlik çokuluslu şirketler tarafından değil, her işletme tarafından benimsenmesini istiyorsak, o zaman bunun uygun maliyetli olması gerekiyor.” bilimsel araştırmaları hızlandırmak için yapay zekayı kullanan Iris.ai.

Botev, Microsoft’un Phi-2’sinin piyasaya sürülmesinin önemli olduğunu söyledi. “Microsoft, ‘ders kitabı kalitesinde’ verilere odaklanan daha küçük ölçekli bir modelle geleneksel ölçeklendirme yasalarına meydan okumayı başardı. Bu, yapay zekanın modelin boyutunu arttırmaktan daha fazlası olduğunun bir kanıtıdır” dedi.

“Hangi veriler ve modelin bu veriler üzerinde nasıl eğitildiği belli olmasa da modellerin daha azıyla daha fazlasını yapmasına olanak tanıyan bir dizi yenilik var.”

Her büyüklükteki Yüksek Lisans’lar, hızlı mühendislik olarak bilinen bir süreç aracılığıyla eğitilir; sorguları ve modellere doğru yanıtları besler, böylece algoritma daha doğru yanıt verebilir. Bugün, bilgi istemlerinin listeleri için pazar yerleri bile var. ChatGPT için en iyi 100 istem.

Ancak LLM’lere ne kadar çok veri alınırsa, kötü ve hatalı çıktı olasılığı da o kadar artar. GenAI araçları temel olarak sonraki kelime tahmincileridir; bu, onlara beslenen hatalı bilgilerin hatalı sonuçlar doğurabileceği anlamına gelir. (LLM’ler zaten bazı yüksek profilli hatalar yaptı ve yeni nesil motorların raydan çıkıp tuhaf tepkiler ürettiği “halüsinasyonlar” üretebilirler.)

Botev, “Verinin kendisi iyi yapılandırılmışsa ve akıl yürütmeyi destekliyorsa, herhangi bir modelin halüsinasyona uğraması için daha az alan vardır” dedi. “Kodlama dili, metinden daha çok mantığa dayalı olduğu için eğitim verisi olarak da kullanılabilir.

“Dil modellerinin bilgiyi gerçeklere dayalı olarak almasını, işlemesini ve yeniden üretmesini sağlamak için alana özgü, yapılandırılmış bilgiyi kullanmalıyız” diye devam etti. “Bunu daha da ileri götürürsek, bilgi grafikleri bir dil modelinin çıktılarına ulaşmak için attığı adımları değerlendirebilir ve gösterebilir, esasen olası bir düşünce zinciri oluşturabilir. Bu eğitimde yoruma ne kadar az yer verilirse, modellerin gerçeklere dayalı doğru yanıtlara yönlendirilme ihtimalinin o kadar yüksek olacağı anlamına gelir.

“Phi-2 gibi yüksek performansa sahip daha küçük modeller ileriye giden yolu temsil ediyor.”

Telif Hakkı © 2023 IDG Communications, Inc.



genel-13