MosaicML’nin kurucu ortağı ve CEO’su Naveen Rao ve kurucu ortak ve CTO’su Hanlin Tang. Şirketin eğitim teknolojileri, verileri işlemek için büyük dil modelleri (LLM’ler) kullanılarak “uzman oluşturmaya” uygulanır. mozaikML
Pazartesi günü, San Francisco merkezli 10 yıllık bir yazılım şirketi olan Databricks, duyuru genç bir şirket olan (üç yaşında) MosaicML’yi 1,3 milyar dolara satın alacağını söyledi.
Bu hareket, yalnızca üretken yapay zekaya olan tutkuyu değil, aynı zamanda bulut veritabanı pazarının değişen doğasını da gösteriyor.
mozaikMLKadrosu yarı iletken gazilerinden oluşan , Composer adlı bir program geliştirdi. Composer, OpenAI’nin GPT’si gibi yapay zeka programlarının herhangi bir standart sürümünü almayı kolay ve uygun maliyetli hale getirir ve geliştirmelerini önemli ölçüde hızlandırır. Ve bu, bir sinir ağının eğitimi üzerinde çalışarak.
“Sinir ağları bir veritabanı gibi düşünülebilir”
Bu yıl şirket, şirketlerin bir ücret karşılığında bir sinir ağını eğitebileceği ve çıkarım, yani kullanıcılardan gelen sorgulara yanıt olarak tahminler gerçekleştirebileceği ticari bulut tabanlı hizmetler başlattı.
Bununla birlikte, MosaicML’nin yaklaşımının en derin unsuru, geleneksel ilişkisel veri tabanının tamamen yeniden icat edilebileceğini ima eder.
MosaicML’nin kurucu ortağı ve CEO’su Naveen Rao, anlaşmayı imzalamadan önce ZDNET ile yaptığı röportajda, “Sinir ağı modelleri, özellikle üretken modeller söz konusu olduğunda, aslında bir tür veritabanı olarak düşünülebilir” dedi.
“Şema verilerden keşfedilir”
“Şema verilerden keşfedilir, verilere dayalı gizli bir temsil üretir”
“Çok yüksek bir düzeyde, bir veritabanı genellikle çok yapılandırılmış noktaların bir koleksiyonudur, yani tipik olarak bir tür verinin satırları ve sütunlarıdır ve sonra, bu verilere dayalı olarak, onu organize ettiğiniz bir diyagram vardır. ,” diye açıkladı Rao.
Rao, Oracle’ınki gibi geleneksel bir ilişkisel veritabanının veya MongdoDB’ninki gibi bir belge veritabanının aksine, şemanın büyük bir dil modeliyle önceden oluşturulmuş olduğunu söyledi, “şema verilerden keşfedilir, şuna dayalı gizli bir temsil üretir: veri”. Ayrıca sorgu, SQL gibi bir veritabanındaki sabit aramaların aksine esnektir.
Talepte bulunmak için bilgi istemi kullanma
“Aslında,” diye ekliyor Bay Rao, bir veritabanı alırsınız, girdileri, şeması ve çıktıları üzerindeki kısıtlamaları gevşetirsiniz. veri depoları.
Rao, “Bir yazarın bir dizi kitabını okuyabilirim ve bu kitaplardaki fikirleri ve ilişkileri sorgulayabilirim, ki bunu sadece metinle yapamazsınız,” dedi.
Bir LLM’de istemleri kullanarak, veritabanını sorgulamak için esnek yollar sağlamak mümkündür. Rao, “Doğru şekilde sorguladığınızda, bilgi istemi tarafından oluşturulan bağlamdan bir şeyler alırsınız” diyor. “Dolayısıyla, bu bağlamdan orijinal verilerin bazı yönlerini sorgulamak mümkün; bu, pek çok şeye uygulanabilen oldukça geniş bir kavramdır. Ve bence bu teknolojilerin çok önemli olmasının nedeni de aslında bu.”
Büyük Veri ve yapay zeka arasındaki bağlantı
MosaicML’nin çalışması, ChatGPT gibi üretken AI programlarını iş amaçlarıyla daha alakalı hale getirmeye yönelik daha geniş bir hareketin parçasıdır.
Örneğin, ŞnorkelYine San Francisco merkezli üç yıllık bir girişim olan , şirketlerin yapay zeka modelleri için otomatik olarak etiketli eğitim verileri oluşturan işlevler yazmasına olanak tanıyan araçlar sunuyor. En büyük AI modelleri, OpenAI’nin GPT-4’ü gibi sinir ağlarıdır.
Başka bir girişim, OctoML, geçen hafta bir hizmet açıkladı çıkarım işini kolaylaştırmak için.
Databricks’in satın alınması, MosaicML’nin birkaç yıldır veri depolama paradigmasını satırların ve sütunların ötesinde değiştiren ilişkisel olmayan veritabanı pazarına girmesini sağlıyor.
Bu, Hadoop Data Lake’i, ondan yararlanma tekniklerini ve Databricks’in ana destekçisi olduğu Apache Spark’ın “haritala ve küçült” paradigmasını içerir. Pazar aynı zamanda veri depolamanın bir anlamda veri akışının kendisinde olabileceği veri akışı teknolojilerini de içerir. “Hareket halindeki veriler” olarak bilinen bu teknoloji, Confluent tarafından tanıtılan Apache Kafka yazılımı tarafından kullanılır.
Daha Küçük, Daha Verimli Modeller: Moore’un Yapay Zeka Yasasının Başlangıcı
İşlemden önce 64 milyon dolar toplayan MosaicML, dil modelleri ChatGPT biçiminde etki alanına özgü kullanım durumları kadar genelci olmayan şirketleri hedefliyor. Bay Rao’nun “uzman yapılar” dediği şey budur.
Üretken yapay zeka da dahil olmak üzere yapay zekadaki baskın eğilim, video oyunlarından çevrimiçi sohbetlere ve şiirlerin yazılmasına kadar her şeydeki görevleri yerine getirebilen, giderek daha genel hale gelen programlar oluşturmak olmuştur.
ChatGPT’nin yarattığı heyecan, böylesine genel bir programın sınırsız sayıda isteği işlemek için kullanılabildiğinde ne kadar ilgi çekici olabileceğini gösteriyor. Yine de, yapay zekanın bireyler ve kuruluşlar tarafından kullanımı, çok daha etkili olabilecekleri için muhtemelen uzun bir süre çok daha hedefli yaklaşımların hakimiyetinde olacak.
Rao, ZDNET’e “Belirli bir etki alanı için daha büyük bir modelden çok daha iyi performans gösteren daha küçük bir model oluşturabilirim” dedi.
MosaicML, bir sinir ağının ne kadar hızlı eğitilebileceğini gösteren MLPerf kıyaslama testlerinde hünerini göstererek bir isim yaptı. Yapay zekayı hızlandırmanın sırlarından biri, daha özenle oluşturulmuş daha küçük sinir ağlarının daha verimli olabileceği gözlemidir.
Bu fikir 2019 tarihli bir makalede derinlemesine incelendi MIT bilim adamları Jonathan Frankle ve Michael Carbin tarafından yazıldı ve o yıl Uluslararası Öğrenme Temsilleri Konferansı’nda En İyi Makale ödülünü kazandı. Makale, her büyük sinir ağının toplam ağ kadar doğru olabilen ancak daha az hesaplama çabasıyla “alt ağlar” içerdiği fikri olan “piyango bileti hipotezini” ortaya koydu.
Frankle ve Carbin, MosaicML’de danışman olarak görev yaptı.
Eğitim verisi miktarı ile bir sinir ağının boyutu arasında optimal bir denge
MosaicML ayrıca Google’ın DeepMind’ı tarafından keşfedilen ve eğitim verisi miktarı ile bir sinir ağının boyutu arasında optimal bir denge olduğunu gösteren tekniklerden açıkça yararlanır. Eğitim verisi miktarını iki katına çıkararak, daha küçük bir ağı aynı türden daha büyük bir ağdan çok daha doğru hale getirmek mümkündür.
Tüm bu verimlilikler, Rao tarafından bir tür ağ hızlandırma Moore Yasası olarak adlandırdığı şeyde özetlenmiştir. Moore Yasası, temel olarak bir çipteki transistör miktarının sabit maliyetle her 18 ayda bir ikiye katlanacağını varsayan, ampirik yarı iletken kuralıdır. PC devrimini, ardından da akıllı telefon devrimini mümkün kılan bu ekonomik mucizeydi.
Rao’nun versiyonunda, sinir ağları, MosaicML Composer aracıyla hesaplamanın püf noktalarını uygulayarak her nesilde dört kat daha hızlı hale gelebilir.
İş verileri üzerinde AI modellerini eğitme pazarı
Böyle bir yaklaşım, birkaç şaşırtıcı ders çıkarmamızı sağlar. İlk olarak, AI’nın makine öğrenimi biçimlerinin büyük miktarda veri gerektirdiği inancının aksine, daha küçük veri kümeleri, DeepMind’in çalışması gibi veri ve model arasındaki optimum dengede uygulandığında iyi performans gösterebilir. Başka bir deyişle, gerçekten büyük veri en iyisi olmayabilir.
Devasa sinir ağlarının aksine genel İnternetteki her şey üzerinde eğitilen GPT-3 gibi, daha küçük ağlar, bir şirketin kendi alanıyla ilgili benzersiz bilgisinin deposu olabilir.
Rao, “Altyapımız, insanların verileri üzerinde bu tür ağlar oluşturmak için neredeyse arka plan haline geliyor” dedi. “İşte bu yüzden insanlar kendi modellerini oluşturmak zorundalar.”
“Bir banka veya istihbarat teşkilatıysanız, GPT-3’ü kullanamazsınız çünkü Reddit üzerinde eğitilmiştir, kişisel olarak tanımlanabilir bilgiler içerebilecek bir dizi veriyi eğitmiştir ve daha önce görülmemiş veriler içerebilir. kullanım için açıkça yetkilendirilmiş,” dedi Rao.
Açık kaynak LLM’ler
Bu nedenle MosaicML, müşterilerin verileri üzerinde ne tür bir programın çalıştığını bilmesi için büyük dil modellerinin açık kaynak modellerini kullanıma sunma kampanyasına katıldı. Bu, Mayıs ayında ZDNET’e kurumsal veriler de dahil olmak üzere dünyanın en değerli verileri için “Modellerin kara kutusunu kullanmak imkansız” diyen Stability.ai Kurucusu ve CEO’su Emad Mostaque gibi diğer üretici yapay zeka liderleri tarafından paylaşılan bir görüş.
Geçen Perşembe günü MosaicML, MPT-30B olarak adlandırılan 30 milyar parametre veya nöral ağırlık içeren bir dil modelinin en son sürümünü açık kaynak olarak yayınladı. Şirket, MPT-30B’nin OpenAI’nin GPT-3 kalitesini geçtiğini iddia ediyor. Şirket, dil modellerini Mayıs ayı başlarında açık kaynak olarak yayınladığından beri, iki milyondan fazla dil modeli indirmesi gördü.