Meta Salı günü en son ve en büyük yapay zeka (AI) modelini kamuoyuna duyurdu. Meta Llama 3.1 405B olarak adlandırılan şirket, açık kaynaklı modelin GPT-4, GPT-4o ve Claude 3.5 Sonnet gibi büyük kapalı AI modellerini çeşitli ölçütlerde geride bıraktığını söylüyor. Daha önce yayınlanan Llama 3 8B ve 70B AI modelleri de yükseltildi. Daha yeni sürümler 405B modelinden damıtıldı ve artık 1.28.000 belirteçlik bir bağlam penceresi sunuyor. Meta, bu modellerin ikisinin de boyutlarına göre artık önde gelen açık kaynaklı büyük dil modelleri (LLM’ler) olduğunu iddia ediyor.

Yeni AI modelini bir blogda duyuruyoruz postalamakTeknoloji devi, “Llama 3.1 405B, genel bilgi, yönlendirilebilirlik, matematik, araç kullanımı ve çok dilli çeviri alanlarında en son teknoloji yetenekleri söz konusu olduğunda en iyi yapay zeka modelleriyle rekabet eden ilk açık kaynaklı modeldir.” dedi.

Özellikle, buradaki 405B, LLM’nin bilgi düğümlerinin sayısı olarak anlaşılabilecek 405 milyar parametreye atıfta bulunur. Parametre boyutu ne kadar yüksekse, bir AI modeli karmaşık sorguları ele almada o kadar yeteneklidir. Modelin bağlam penceresi 128.000 belirteçtir. İngilizce, Almanca, Fransızca, İtalyanca, Portekizce, Hintçe, İspanyolca ve Tayca dillerini destekler.

Şirket, Llama 3.1 405B’nin birden fazla uzmanlık alanında 150’den fazla kıyaslama testinde değerlendirildiğini iddia ediyor. Gönderide paylaşılan verilere göre, Meta’nın AI modeli Grade School Math 8K’da (GSM8K) 96.8 puan aldı (GPT-4’te 94.2), GPT-4o’da 96.1 puan aldı ve Claude 3.5 Sonnet’te 96.4 puan aldı. Ayrıca, bu modelleri AI2’nin Reasoning Challenge (ARC) fen yeterliliği kıyaslamasında, Nexus’ta araç kullanımında ve Multilingual Grade School Math (MGSM) kıyaslamasında geride bıraktı.

Meta’nın en büyük AI modeli, 16 binden fazla Nvidia H100 GPU’su ile 15 trilyondan fazla token üzerinde eğitildi. Llama 3.1 405B’deki en önemli tanıtımlardan biri, geliştiricilerin web aramaları için Brave Search’ü, karmaşık matematiksel hesaplamalar yapmak için Wolfram Alpha’yı ve Python kodu oluşturmak için Code Interpreter’ı kullanmalarına olanak sağlayacak araç çağırma için resmi destektir.

Meta Llama 3.1 405B açık kaynak kodlu olduğundan, bireyler buna şirketin web sitesinden erişebilir. İnternet sitesi veya onun Sarılma Yüzünden listeleme. Ancak, büyük bir model olduğu için, çalışması için yaklaşık 750 GB disk depolama alanı gerektirir. Çıkarım için, Model Parallel 16’da (MP16) iki düğüm de gerekli olacaktır. Model Parallelism 16, büyük bir sinir ağının 16 cihaza veya işlemciye ayrıldığı model paralelliğinin belirli bir uygulamasıdır.

Model, herkese açık olmasının yanı sıra AWS, Nvidia, Databricks, Groq, Dell, Azure, Google Cloud, Snowflake ve daha fazlası tarafından büyük AI platformlarında da mevcuttur. Şirket, toplam 25 platformun Llama 3.1 405B tarafından destekleneceğini söylüyor. Güvenlik ve emniyet için şirket, LLM’yi olası zarar ve suistimalden koruyan iki yeni araç olan Llama Guard 3 ve Prompt Guards’ı kullandı.



genel-8