Elon Musk’un xAI’si yayınlandı Grok hafta sonu büyük dil modelini “açık kaynak” olarak tanıtacağız. Milyarder, açıkça, ismine rağmen pek de açık olmayan rakibi OpenAI ile şirketini anlaşmazlığa düşürmeyi umuyor. Peki Grok gibi bir şeyin kodunu yayınlamak aslında yapay zeka geliştirme topluluğuna katkıda bulunuyor mu? Evet ve hayır.

Grok, ChatGPT veya Claude gibi belirsiz bir şekilde tanımlanmış rolü yerine getirmek üzere xAI tarafından eğitilmiş bir sohbet robotudur: siz ona sorarsınız, o yanıtlar. Ancak bu LLM’ye şımarık bir ton ve onu diğerlerinden ayırmanın bir yolu olarak Twitter verilerine ekstra erişim verildi.

Her zaman olduğu gibi, bu sistemlerin değerlendirilmesi neredeyse imkansızdır, ancak genel fikir birliği, GPT-3.5 gibi son nesil orta boy modellerle rekabet edebilecek gibi görünüyor. (Kısa geliştirme süresi göz önüne alındığında bunun etkileyici mi yoksa bütçe ve xAI’yi çevreleyen gösterişli hava göz önüne alındığında hayal kırıklığı mı olduğuna karar vermek tamamen size kalmış.)

Her halükarda Grok, önemli boyut ve kapasiteye sahip, modern ve işlevsel bir Yüksek Lisans’tır ve geliştirici topluluğunun bu tür şeylerin cesaretine ne kadar çok erişimi olursa o kadar iyidir. Sorun, “açık” kavramının bir şirketin (veya milyarderin) ahlaki üstünlük iddiasından daha fazlasını yapacak şekilde tanımlanmasıdır.

Bu, yapay zeka dünyasında “açık” ve “açık kaynak” terimlerinin sorgulandığı veya kötüye kullanıldığı ilk sefer değil. Ve biz sadece bir diğeri kadar açık olmayan bir kullanım lisansını seçmek gibi teknik bir kelime oyunu hakkında konuşmuyoruz (merak ediyorsanız Grok Apache 2.0’dır).

Öncelikle yapay zeka modelleri, onları “açık kaynak” haline getirme konusunda diğer yazılımlardan farklıdır.

Örneğin bir kelime işlemci yapıyorsanız, onu açık kaynak haline getirmek nispeten basittir: tüm kodunuzu herkese açık olarak yayınlarsınız ve topluluğun iyileştirmeler önermesine veya kendi sürümünü oluşturmasına izin verirsiniz. Açık kaynağı bir kavram olarak değerli kılan şeylerden biri, uygulamanın her yönünün orijinal olması veya orijinal yaratıcısına atfedilmiş olmasıdır; bu şeffaflık ve doğru atıflara bağlılık yalnızca bir yan ürün değil, açıklık kavramının özüdür.

Yapay zeka ile bu muhtemelen hiç mümkün değil, çünkü makine öğrenimi modellerinin oluşturulma şekli, büyük ölçüde bilinmeyen bir süreci içeriyor; bu sayede muazzam miktarda eğitim verisi, yapısını hiçbir insanın gerçekten yönetmediği, hatta anlayamadığı karmaşık bir istatistiksel temsile dönüştürülüyor. . Bu süreç, geleneksel kodlar gibi incelenemez, denetlenemez ve geliştirilemez; dolayısıyla bir anlamda hala çok büyük bir değere sahip olsa da hiçbir zaman gerçekten açık olamaz. (Standartlar topluluğu bile neyin açık olacağını tanımladı bu bağlamda ama aktif olarak bunu tartışıyoruz.)

Bu, yapay zeka geliştiricilerinin ve şirketlerinin, modellerini bu bağlamda anlamını büyük ölçüde kaybetmiş bir terim olan “açık” olarak tasarlamalarını ve talep etmelerini engellemedi. Bazıları, halka açık bir arayüz veya API varsa modellerini “açık” olarak adlandırır. Bazıları, geliştirme sürecini açıklayan bir makale yayınladıklarında buna “açık” diyorlar.

Bir yapay zeka modelinin “açık kaynağa” en yakın olabileceği tartışmasız durum, geliştiricilerinin kendi sürümünü yayınlamasıdır. ağırlıklarBu, kullanıcının girdisiyle başlatılan modeli tamamlamak için vektör matematik işlemlerini kesin bir sırayla gerçekleştiren sinir ağlarındaki sayısız düğümün tam nitelikleri anlamına gelir. Ancak LLaMa-2 gibi “açık ağırlıklı” modeller bile eğitim veri seti ve süreci gibi onu sıfırdan yeniden oluşturmak için gerekli olan diğer önemli verileri hariç tutar. (Bazı projeler elbette daha da ileri gidiyor.)

Bütün bunlar, bu modelleri oluşturmak veya kopyalamak için milyonlarca dolarlık bilgi işlem ve mühendislik kaynağına ihtiyaç duyulduğu ve bu modelleri kimin yaratıp kopyalayabileceğini önemli kaynaklara sahip şirketlerle etkili bir şekilde kısıtladığı gerçeğinden bahsetmeden önce bile geçerli.

Peki xAI’nin Grok sürümü bu yelpazenin neresinde yer alıyor?

Açık ağırlık modeli olarak herkesin kullanımına hazırdır. indirin, kullanın, değiştirin, ince eleyin veya damıtın. Bu iyi! Parametre açısından (314 milyar) herkesin bu şekilde özgürce erişebileceği en büyük modellerden biri gibi görünüyor; bu da meraklı mühendislere, çeşitli modifikasyonlardan sonra nasıl performans gösterdiğini test etmek istiyorlarsa üzerinde çalışacak çok şey veriyor.

Modelin boyutu ciddi dezavantajları da beraberinde getiriyor: Onu bu ham haliyle kullanmak için yüzlerce gigabaytlık yüksek hızlı RAM’e ihtiyacınız olacak. Halihazırda altı haneli yapay zeka çıkarım donanımına sahip bir düzine Nvidia H100’e sahip değilseniz, o indirme bağlantısına tıklamakla uğraşmayın.

Grok’un diğer bazı modern modellerle tartışmasız rekabetçi olmasına rağmen, onlardan çok çok daha büyüktür, bu da aynı şeyi başarmak için daha fazla kaynak gerektirdiği anlamına gelir. Her zaman bir boyut, verimlilik ve diğer ölçütler hiyerarşisi vardır ve bu hâlâ değerlidir ancak bu, nihai üründen çok ham maddedir. Bunun Grok’un en son ve en iyi sürümü olup olmadığı da açık değil; tıpkı bazılarının X aracılığıyla erişebildiği açıkça ayarlanmış sürüm gibi.

Genel olarak bu verileri yayınlamak iyi bir şey ancak bazılarının umduğu gibi oyunun kurallarını değiştirecek bir gelişme değil.

Musk’ın bunu neden yaptığını merak etmemek de zor. Yeni ortaya çıkan yapay zeka şirketi gerçekten açık kaynak geliştirmeye mi adanmış? Yoksa bu, Musk’ın şu anda milyarder düzeyinde bir sığır peşinde koştuğu OpenAI’nin gözündeki çamurdan mı ibaret?

Eğer gerçekten kendilerini açık kaynak geliştirmeye adamışlarsa, bu birçok sürümün ilki olacak ve topluluğun geri bildirimlerini dikkate alacaklarını, diğer önemli bilgileri yayınlayacaklarını, eğitim veri sürecini karakterize edeceklerini ve yaklaşımlarını daha fazla açıklayacaklarını umuyoruz. Değilse ve bu sadece Musk’ın çevrimiçi tartışmalarda işaret edebilmesi için yapılıyorsa, bu hala değerlidir; ancak yapay zeka dünyasındaki hiç kimsenin önümüzdeki birkaç aydan sonra oynayacağı bir şeye güvenmeyeceği veya çok fazla dikkat edeceği bir şey değil. modeli.



genel-24