Büyük dil modelleri teknoloji dünyasını kasıp kavurdu. Artık sorunları çözebilen, soruları yanıtlayabilen, tahminler yapabilen ve daha fazlasını yapabilen ChatGPT ve diğer konuşma modelleri gibi yapay zeka araçlarını destekliyorlar. Bununla birlikte, bu araçları kullanmanın önemli riskleri vardır: Makul ancak yanlış iddialarda bulundukları, toksik içerik ürettikleri ve hatta yapay zeka eğitim verilerine gömülü önyargıları taklit ettikleri bilinmektedir.
Araştırmacıların bu sorunları çözmelerine yardımcı olmak için Meta, geçen Cuma yayınlanacağını duyurdu adı verilen yeni bir geniş dil modelinin LLaMA (Büyük Dil Modeli Meta AI). Şirket, araştırma kullanım durumlarına odaklanan ticari olmayan bir lisans altında kullanıma sunuyor ve duruma göre erişim vermeyi planlıyor. Akademik araştırmacılar, devlet kurumları, sivil toplum ve akademi ile bağlantılı bireyler ve dünya çapındaki endüstriyel araştırma laboratuvarları tarafından erişilebilir olacaktır.
LLaMA ile ilginç olan şey, nispeten küçük olmasıdır.
Meta kullanılan “belirteçler”
Adından da anlaşılacağı gibi, büyük dil modelleri oldukça büyüktür. Bu dildeki sorunları çözecek, cevaplar bulacak veya kendi bestelerinizi oluşturacak kadar gelişmiş bir yapay zeka modeli oluşturmak için çok büyük miktarda dil verisi (konuşma dili, bilgisayar kodu, genetik veriler veya diğer “diller”) gerekir.
Meta, “LLaMA gibi daha küçük temel modellerin eğitimi, büyük dil modelleri için arzu edilir çünkü yeni yaklaşımları test etmek, başkalarının çalışmalarını doğrulamak ve yeni kullanım durumlarını keşfetmek için çok daha az hesaplama gücü ve kaynak gerektirir.”
Nispeten “küçük” bir LLM oluşturmak için Meta, “belirteçler” kullandı – tam kelimeler yerine kelime parçaları. Meta, LLaMA’yı Latin veya Kiril alfabesine sahip metinlere odaklanarak, en fazla sayıda konuşmacıya sahip 20 dilden metinler konusunda eğitti.
Çeşitli boyutlar mevcuttur
LLaMA aslında 7 ila 65 milyar parametre arasında değişen bir model koleksiyonudur. LLaMA 65B ve LLaMA 33B, 1,4 trilyon jetonla eğitilirken, en küçük model olan LLaMA 7B, bir trilyon jetonla eğitildi. Modeller yalnızca halka açık veri kümeleri kullanılarak eğitildi.
Küçük olmalarına rağmen, LLaMA modelleri güçlüdür. Meta, LLaMA-13B’nin çoğu kıyaslamada GPT-3’ten (175B) daha iyi performans gösterdiğini, LLaMA-65B’nin ise en iyi modeller olan Chinchilla70B ve PaLM-540B ile rekabet ettiğini söyledi.
LLaMA ayrıca bir temel model seti olarak da değerlidir. Temel modeller, etiketlenmemiş veriler üzerinde eğitilir, bu da çok çeşitli kullanım durumlarına uyarlanabilecekleri anlamına gelir.
Meta, LLaMA’yı birden çok boyutta (7B, 13B, 33B ve 65B ayarları) kullanılabilir hale getirecek ve aynı zamanda bir LLAMA modelini paylaşacaktır. kart modelin nasıl inşa edildiğini gösteren ayrıntılar. Şirket ayrıca, araştırmacıların LLaMA’nın sınırlamalarını anlayabilmeleri ve bu alanlarda araştırmaları ilerletebilmeleri için model yanlılığını ve toksisitesini değerlendiren bir dizi kıyaslama değerlendirmesi sağlıyor.
Kaynak : “ZDNet.com”