Blokta yeni bir AI model ailesi var ve sıfırdan üretilebilen birkaç modelden biri.
Salı günü, merhum Paul Allen tarafından kurulan kar amacı gütmeyen yapay zeka araştırma kuruluşu Ai2, OLMo serisindeki ikinci model ailesi olan OLMo 2’yi piyasaya sürdü. (OLMo, “Açık Dil Modeli”nin kısaltmasıdır.) Aralarından seçim yapabileceğiniz “açık” dil modelleri sıkıntısı olmasa da (bkz: Meta’nın Laması), OLMo 2, Açık Kaynak Girişiminin açık kaynak yapay zeka tanımını, yani kullanılan araçlar ve verileri karşılar. geliştirmek için kamuya açıktır.
Açık Kaynak Girişimi, uzun süredir faaliyet gösteren kurum Açık kaynakla ilgili her şeyi tanımlamayı ve “yönetmeyi” amaçlayan şirket, açık kaynak yapay zeka tanımını Ekim ayında tamamladı. Ancak Şubat ayında piyasaya sürülen ilk OLMo modelleri de kriterleri karşıladı.
“OLMo 2 [was] AI2, “baştan sona açık ve erişilebilir eğitim verileri, açık kaynak eğitim kodu, tekrarlanabilir eğitim tarifleri, şeffaf değerlendirmeler, ara kontrol noktaları ve daha fazlasıyla geliştirildi” diye yazdı. blog yazısı. “Verilerimizi, tariflerimizi ve bulgularımızı açıkça paylaşarak açık kaynak topluluğuna yeni ve yenilikçi yaklaşımlar keşfetmek için gereken kaynakları sağlamayı umuyoruz.”
OLMo 2 ailesinde iki model bulunmaktadır: biri 7 milyar parametreli (OLMo 7B) ve diğeri 13 milyar parametreli (OLMo 13B). Parametreler kabaca bir modelin problem çözme becerilerine karşılık gelir ve daha fazla parametreye sahip modeller genellikle daha az parametreye sahip olanlardan daha iyi performans gösterir.
Çoğu dil modeli gibi OLMo 2 7B ve 13B de soruları yanıtlamak, belgeleri özetlemek ve kod yazmak gibi çeşitli metin tabanlı görevleri gerçekleştirebilir.
Ai2, modelleri eğitmek için 5 trilyon tokenden oluşan bir veri seti kullandı. Tokenlar ham veri parçalarını temsil eder; 1 milyon jeton yaklaşık 750.000 kelimeye eşittir. Eğitim seti, “yüksek kalite için filtrelenmiş web siteleri”, akademik makaleler, Soru-Cevap tartışma panoları ve “hem sentetik hem de insan tarafından oluşturulan” matematik çalışma kitaplarını içeriyordu.
Ai2, sonucun, Meta’nın Llama 3.1 sürümü gibi açık modellere sahip, rekabetçi ve performans açısından modeller olduğunu iddia ediyor.

Ai2 şöyle yazıyor: “Daha önceki OLMo modelimize kıyasla tüm görevlerde performansta çarpıcı bir iyileşme gözlemlemekle kalmıyoruz, aynı zamanda OLMo 2 7B’nin LLama 3.1 8B’den daha iyi performans gösterdiğini de gözlemliyoruz.” “OLMo 2 [represents] bugüne kadarki en iyi tamamen açık dil modelleri.”
OLMo 2 modelleri ve tüm bileşenleri Ai2’den indirilebilir. web sitesi. Apache 2.0 lisansı altındadırlar, yani ticari olarak kullanılabilirler.
Son zamanlarda açık modellerin güvenliği konusunda bazı tartışmalar yaşanıyor; bildirildiğine göre Çinli araştırmacılar tarafından savunma araçları geliştirmek için kullanılan Lama modelleri. Şubat ayında Ai2 mühendisi Dirk Groeneveld’e OLMo’nun kötüye kullanılmasından endişe duyup duymadığını sorduğumda, faydaların sonuçta zararlardan daha ağır bastığına inandığını söyledi.
“Evet, açık modellerin uygunsuz veya amaç dışı kullanılması mümkün” dedi. “[However, this] yaklaşım aynı zamanda daha etik modellere yol açan teknik ilerlemeleri de teşvik eder; doğrulama ve tekrarlanabilirlik için bir önkoşuldur, zira bunlar yalnızca tam yığına erişimle gerçekleştirilebilir; ve artan güç yoğunlaşmasını azaltarak daha adil bir erişim sağlıyor.”

