Llama 3 şu anda 8B ve 70B parametrelerine sahip iki model ağırlığına sahiptir. (B milyarlar içindir ve bir modelin ne kadar karmaşık olduğunu ve eğitiminin ne kadarını anladığını temsil eder.) Şu ana kadar yalnızca metin tabanlı yanıtlar sunuyor, ancak Meta bunların “büyük bir sıçrama” olduğunu söylüyor önceki sürüme göre. Lama 3, yönlendirmeleri yanıtlamada daha fazla çeşitlilik gösterdi, sorulara yanıt vermeyi reddettiği durumlarda daha az hatalı ret cevabı verdi ve daha iyi mantık yürütebildi. Meta ayrıca Llama 3’ün eskisinden daha fazla talimatı anladığını ve daha iyi kod yazdığını söylüyor.
Gönderide, Meta, belirli kıyaslama testlerinde Llama 3’ün her iki boyutunun da Google’ın Gemma ve Gemini, Mistral 7B ve Anthropic’in Claude 3’ü gibi benzer boyutlu modelleri geride bıraktığını iddia ediyor. Genellikle genel bilgiyi ölçen MMLU değerlendirmesinde Llama 3 8B, Gemma 7B ve Mistral 7B’den önemli ölçüde daha iyi performans gösterirken, Llama 3 70B Gemini Pro 1.5’ten biraz daha üstün performans gösterdi.
(Meta’nın 2.700 kelimelik gönderisinde OpenAI’nin amiral gemisi modeli olan GPT-4’ten bahsetmemesi belki dikkate değerdir.)
Yapay zeka modellerinin kıyaslama testinin ne kadar güçlü olduklarının anlaşılmasına yardımcı olmasına rağmen kusurlu olduğu da unutulmamalıdır. Modelleri kıyaslamak için kullanılan veri kümelerinin, model eğitiminin bir parçası olduğu bulunmuştur; bu, modelin, değerlendiricilerin kendisine soracağı soruların yanıtlarını zaten bildiği anlamına gelir.
Meta diyor ki insan değerlendiriciler ayrıca Llama 3’ü OpenAI’nin GPT-3.5’i de dahil olmak üzere diğer modellerden daha yüksek olarak derecelendirdiler. Meta, insan değerlendiricilerin Llama 3’ün kullanılabileceği gerçek dünya senaryolarını taklit etmeleri için yeni bir veri seti oluşturduğunu söylüyor. Bu veri kümesi tavsiye isteme, özetleme ve yaratıcı yazma gibi kullanım örneklerini içeriyordu. Şirket, model üzerinde çalışan ekibin bu yeni değerlendirme verilerine erişiminin olmadığını ve bunun modelin performansını etkilemediğini söylüyor.
“Bu değerlendirme seti, 12 temel kullanım durumunu kapsayan 1.800 ipucu içerir: tavsiye istemek, beyin fırtınası, sınıflandırma, kapalı soru yanıtlama, kodlama, yaratıcı yazma, çıkarma, bir karakterin/kişiliğin yaşaması, açık soru yanıtlama, akıl yürütme, yeniden yazma ve özetleme, ” Meta blog yazısında diyor.
Llama 3’ün daha büyük model boyutlarına sahip olması (daha uzun talimat ve veri dizilerini anlayabilmesi) ve “Bir görüntü oluştur” veya “Bir ses dosyasını yazıya dök” gibi daha çok modlu yanıtlar verebilmesi bekleniyor. Meta, 400 milyarın üzerinde parametreye sahip olan ve ideal olarak modelin daha küçük versiyonlarına göre daha karmaşık kalıpları öğrenebilen bu daha büyük versiyonların şu anda eğitimde olduğunu ancak ilk performans testlerinin, bu modellerin kıyaslama tarafından ortaya çıkan soruların çoğuna cevap verebileceğini gösterdiğini söylüyor.
Ancak Meta, bu daha büyük modellerin bir ön izlemesini yayınlamadı ve bunları GPT-4 gibi diğer büyük modellerle karşılaştırmadı.