AI sistemleri dil modelleri olarak bilinen metni anlama ve oluşturma, kuruluştaki en yeni şeydir. Yakın zamanda anket teknoloji liderlerinin %60’ının yapay zeka dil teknolojileri için bütçelerinin 2020’de en az %10 arttığını söylediğini, %33’ünün ise %30’luk bir artış bildirdiğini tespit etti.
Ancak tüm dil modelleri eşit yaratılmamıştır. OpenAI’nin GPT-3’ü gibi büyük, genel amaçlı modeller ve belirli görevler için ince ayarlanmış modeller (BT masası sorularını yanıtlamayı düşünün) gibi çeşitli türler baskın olarak ortaya çıkıyor. Uçta üçüncü bir model kategorisi var – özellikle nesnelerin interneti cihazları ve iş istasyonları üzerinde çalışmak üzere tasarlanmış, boyut olarak yüksek oranda sıkıştırılmış ve birkaç yetenekle sınırlı olma eğiliminde olan bir model.
Bu farklı yaklaşımların güçlü yanları, eksiklikleri ve gereksinimleri açısından büyük farklılıkları vardır – işte bunların nasıl karşılaştırıldığı ve önümüzdeki bir veya iki yıl içinde bunların nerelerde konuşlandırılmalarını bekleyebileceğiniz.
Büyük dil modelleri
Büyük dil modelleri, genellikle, onlarca gigabayt boyutundadır ve bazen petabayt ölçeğinde, çok büyük miktarda metin verisi üzerinde eğitilir. Ayrıca, parametre sayısı açısından en büyük modeller arasındadırlar; burada bir “parametre”, modelin öğrendikçe bağımsız olarak değiştirebileceği bir değeri ifade eder. Parametreler, modelin tarihsel eğitim verilerinden öğrenilen parçalarıdır ve temel olarak modelin metin oluşturma gibi bir problem üzerindeki becerisini tanımlar.
“Büyük modeller, sıfır atış senaryoları veya küçük etki alanının olduğu az atış senaryoları için kullanılır.[tailored] eğitim verileri mevcuttur ve genellikle çalışır Tamam birkaç komuta dayalı bir şey üretmek,” Fangzheng Xu, Ph.D. TechCrunch’a e-posta yoluyla, Carnegie Mellon’da doğal dil işleme konusunda uzmanlaşmış bir öğrenci söyledi. Makine öğreniminde, “az-atış”, bir modelin minimum veri ile eğitilmesi pratiğini ifade ederken, “sıfır-atış”, bir modelin eğitim sırasında açıkça görmediği şeyleri tanımayı öğrenebileceğini ima eder.
Xu, “Tek bir büyük model, potansiyel olarak çok az eğitim verisi ile birçok aşağı yönlü görevi etkinleştirebilir,” diye devam etti.
Araştırmacılar daha yeni ve daha büyük mimariler geliştirdikçe, büyük dil modelleri modellerinin kullanımı son birkaç yılda çarpıcı biçimde arttı. Haziran 2020’de, AI başlangıcı OpenAI, metin ve hatta komutlar içeren kısa bir istem verildiğinde kod üretebilen 175 milyar parametreli bir model olan GPT-3’ü piyasaya sürdü. Açık araştırma grubu EleutherAI daha sonra diller arasında çeviri yapabilen, blog yazıları yazabilen, kodu tamamlayabilen daha küçük (6 milyar parametre) ancak yine de yetenekli bir dil modeli olan GPT-J’yi kullanıma sundu. Daha yakın zamanlarda, Microsoft ve Nvidia, okuduğunu anlama ve okuma için en büyük modeller arasında yer alan Megatron-Turing Natural Language Generation (MT-NLG) adlı bir modeli açık kaynaklı hale getirdi. doğal dil çıkarımı bugüne kadar 530 milyar parametrede geliştirildi.
“Bu büyük dil modellerinin bu kadar dikkate değer kalmasının bir nedeni, görevler için tek bir modelin kullanılabilmesidir” soru cevaplama, belge özetleme, metin oluşturma, cümle tamamlama, çeviri ve daha fazlası, UCLA’da hesaplamalı bir sosyal bilimci olan Bernard Koch, TechCrunch’a e-posta yoluyla söyledi. “İkinci neden, siz modele daha fazla parametre ekledikçe ve daha fazla veri ekledikçe performanslarının ölçeklenmeye devam etmesidir… Çok büyük önceden eğitilmiş dil modellerinin dikkat çekici olmasının üçüncü nedeni, yalnızca bir avuç verildiğinde iyi tahminlerde bulunabiliyor gibi görünmeleridir. etiketli örnekler. ”
Cohere ve AI21 Labs dahil olmak üzere yeni kurulan şirketler, API’ler aracılığıyla GPT-3’e benzer modeller de sunar. Diğer şirketler, özellikle Google gibi teknoloji devleri, geliştirdikleri büyük dil modellerini şirket içinde ve gizli tutmayı seçtiler. Örneğin, Google kısa süre önce PaLM adlı 540 milyar parametreli bir modeli detaylandırdı – ancak yayınlamayı reddetti – şirketin dil görevlerinde son teknoloji performansa ulaştığını iddia ettiği bir model.
Açık kaynak kodlu olsun ya da olmasın, büyük dil modellerinin hepsinin ortak olarak yüksek geliştirme maliyetleri vardır. 2020 çalışmak itibaren AI21 Laboratuvarları sadece 1,5 milyar parametreli bir metin oluşturma modeli geliştirmenin masraflarını 1,6 milyon dolara sabitledi. Çıkarım – aslında eğitilmiş modeli çalıştırmak – başka bir tahliyedir. Tek kaynak tahminler tek bir AWS örneğinde GPT-3 çalıştırmanın maliyeti (p3dn.24xlarge) yılda en az 87.000 $.
“Büyük modeller daha büyük, daha güçlü, çok yönlü, daha çok modlu ve eğitilmesi daha ucuz olacak. Teknik direktör Vu Ha, bu oyunu yalnızca büyük teknoloji ve son derece iyi finanse edilen girişimler oynayabilir. AI2 İnkübatör, TechCrunch’a e-posta yoluyla söyledi. “Büyük modeller prototip oluşturmak, yeni kavram kanıtları oluşturmak ve teknik fizibiliteyi değerlendirmek için harika. Maliyet nedeniyle gerçek dünyaya dağıtım için nadiren doğru seçimdirler. Tweet’leri, Slack mesajlarını, e-postaları ve benzerlerini düzenli olarak işleyen bir uygulama, GPT-3 kullanılıyorsa maliyet açısından engelleyici hale gelir.”
Büyük dil modelleri, çok yönlülüğün ve kurumsal erişimin gecikmeden daha önemli olduğu bulut hizmetleri ve API’ler için standart olmaya devam edecek. Ancak son mimariye rağmen yeniliklerbu tür dil modelleri, ister akademi, ister kamu veya özel sektör olsun, kuruluşların çoğu için pratik olmayacaktır.
İnce ayarlı dil modelleri
İnce ayarlı modeller genellikle büyük dilli model benzerlerinden daha küçüktür. Örnekler arasında, programlama görevleri için ince ayar yapılmış GPT-3’ün doğrudan soyundan gelen OpenAI Codex yer alır. Codex, milyarlarca parametre içermesine rağmen hem OpenAI’den daha küçüktür hem de bilgisayar kodu dizileri oluşturma ve tamamlama konusunda daha iyidir.
İnce ayar, bir modelin, örneğin soruları yanıtlama veya protein dizileri oluşturma (Salesforce’un örneğinde olduğu gibi) bir görevi yerine getirme yeteneğini geliştirebilir. ProGen). Ama aynı zamanda bir modelin belirli konuları anlamasını da destekleyebilir. klinik araştırma.
Xu, “İnce ayarlı modeller, çok sayıda eğitim verisi içeren olgun görevler için iyidir,” dedi. “Örnekler arasında makine çevirisi, soru yanıtlama, adlandırılmış varlık tanıma, varlık bağlama [and] bilgi alma.”
Avantajlar bununla da bitmiyor. İnce ayarlı modeller mevcut dil modellerinden türetildiği için, ince ayarlı modellerin eğitilmesi veya çalıştırılması neredeyse o kadar zaman almaz – veya işlem yapmaz -. (Yukarıda bahsedilenler gibi daha büyük modeller haftalar alabilir veya günler içinde eğitmek için çok daha fazla hesaplama gücü gerektirebilir.) Ayrıca büyük dil modelleri kadar fazla veri gerektirmezler. GPT-3, Codex’in eğitildiği 159 gigabayt yerine 45 terabayt metin üzerinde eğitildi.
İnce ayar birçok alana uygulandı, ancak özellikle güçlü, yakın tarihli bir örnek OpenAI’nin InstructGPT’sidir. OpenAI, “insan geri bildiriminden öğrenmeyi pekiştirme” adı verilen bir teknik kullanarak, OpenAI API’sine gönderilen istemler ve insan veri etiketleyicilerden oluşan bir ekip tarafından yazılan istemler hakkında insan tarafından yazılan gösterilerden oluşan bir veri seti topladı. GPT-3’ün yüzüncü boyutuna ek olarak, bir kullanıcının amacına yakın bir şekilde hizalanırken sorunlu metin oluşturma olasılığı gözle görülür şekilde daha düşük olan GPT-3’ün ince ayarlanmış yan dalları oluşturmak için bu veri kümelerinden yararlandılar.
Google araştırmacıları, ince ayarın gücünün bir başka gösteriminde, Şubat ayında bir çalışmak GPT-3’ten çok daha küçük bir modelin – ince ayarlı dil ağı (FLAN) – bir dizi zorlu kriterde GPT-3’ü “büyük bir farkla” geride bıraktığını iddia ediyor. 137 milyar parametreye sahip FLAN, araştırmacıların test ettiği 25 görevden 19’unda GPT-3’ü geride bıraktı ve hatta 10 görevde GPT-3’ün performansını aştı.
“Bence ince ayar, muhtemelen şu anda endüstride en yaygın kullanılan yaklaşımdır ve bunun kısa vadede değişeceğini düşünmüyorum. Şimdilik, daha küçük dil modellerinde ince ayar yapmak, kullanıcıların kendi etki alanına özgü verilerini kullanarak özel sorunlarını çözmeleri için daha fazla kontrol sağlıyor.” Dedi. “dağıtmak yerine [very large language] kullanıcıların kendi başlarına ince ayar yapabileceği modeller, şirketler, modele kısa komutlar ve örnekler verebileceğiniz API komutları aracılığıyla birkaç adımlı öğrenmeyi ticarileştiriyor.”
Edge dil modelleri
Boyut olarak kasıtlı olarak küçük olan kenar modelleri, olabilmek ince ayarlanmış modeller şeklini alır – ama her zaman değil. Bazen, belirli donanım kısıtlamalarını (örneğin, telefon veya yerel web sunucusu donanımı) karşılamak için küçük veri kümeleri üzerinde sıfırdan eğitilirler. Her durumda, uç modeller – bazı açılardan sınırlı olsa da – büyük dil modellerinin eşleşemeyeceği bir dizi avantaj sunar.
Maliyet önemli bir tanesidir. Çevrimdışı ve cihaz üzerinde çalışan bir uç modelle, ödenmesi gereken herhangi bir bulut kullanım ücreti yoktur. (İnce ayarlanmış modeller bile genellikle yerel makinelerde çalıştırılamayacak kadar büyüktür; MT-NLG’nin bir masaüstü işlemcide metin oluşturması bir dakikadan uzun sürebilir.) Milyonlarca tweet’i analiz etmek gibi görevler, popüler bulutta binlerce dolar ücrete neden olabilir. tabanlı modeller.
Uç modeller ayrıca teorik olarak internete bağlı emsallerinden daha fazla gizlilik sunar, çünkü bulutta veri iletmeleri veya analiz etmeleri gerekmez. Ayrıca daha hızlıdırlar; bu, çeviri gibi uygulamalar için önemli bir avantajdır. Google Çeviri gibi uygulamalar, çevrimdışı çeviriler sunmak için uç modellere güvenir.
Koch, “Edge hesaplama muhtemelen anında geri bildirimin gerekli olduğu ortamlarda konuşlandırılacak… Genel olarak, bunların insanların yapay zeka veya robotlarla ya da kendi kendini süren arabalar gibi yol işaretlerini okuyan bir şeyle konuşarak etkileşime girdiği senaryolar olduğunu düşünüyorum” dedi. “Varsayımsal bir örnek olarak, Nvidia’nın bir fast food restoranında müşterilerle bir uç sohbet robotunun sohbet ettiği bir demosu vardır. Son bir kullanım durumu, elektronik tıbbi kayıtlarda otomatik not alma olabilir. Bu durumlarda konuşmayı hızlı bir şekilde işlemek çok önemlidir.”
Elbette küçük modeller, büyük modellerin yapabildiği her şeyi başaramaz. Tek çekirdekli işlemcilerden çip üzerinde GPU donanımlı sistemlere kadar uzanan uç cihazlarda bulunan donanıma bağlıdırlar. Ayrıca, bazı araştırmalar onları geliştirmek için kullanılan tekniklerin istenmeyen özellikleri güçlendirmekalgoritmik önyargı gibi.
“[There’s usually a] güç kullanımı ve tahmin gücü arasında değiş tokuş yapın. Ayrıca, mobil cihaz hesaplaması, dağıtılmış yüksek performanslı bilgi işlem kümeleri ile aynı hızda artmıyor, bu nedenle performans giderek daha geride kalabilir, “dedi Xu.
Geleceğe bakmak
Büyük, ince ayarlı ve uç dil modelleri yeni araştırmalarla gelişmeye devam ettikçe, daha geniş benimseme yolunda engellerle karşılaşmaları muhtemeldir. Örneğin, modellerde ince ayar yapmak, bir modeli sıfırdan eğitmeye kıyasla daha az veri gerektirirken, ince ayar yine de a veri seti. Alana bağlı olarak – örneğin, az konuşulan bir dilden çeviri – veriler mevcut olmayabilir.
“Tince ayarın dezavantajı, hala makul miktarda veri gerektirmesidir. Birkaç adımlı öğrenmenin dezavantajı, ince ayar kadar iyi çalışmaması ve veri bilimcilerin ve makine öğrenimi mühendislerinin model üzerinde daha az kontrole sahip olmasıdır, çünkü modelle yalnızca bir API aracılığıyla etkileşime girerler,” diye devam etti Koch. “Ve uç AI’nın dezavantajları, karmaşık modellerin küçük cihazlara sığamamasıdır, bu nedenle performans, tek bir masaüstü GPU’ya sığabilen modellerden kesinlikle daha kötü – on binlerce GPU’ya dağıtılmış bulut tabanlı büyük dil modelleri çok daha az.”
Xu, boyutu ne olursa olsun tüm dil modellerinin bazı önemli yönlerden yeterince çalışılmadığına dikkat çekiyor. Bir modelin nasıl ve neden çalıştığını anlamayı ve bu bilgileri kullanıcılara sunmayı amaçlayan açıklanabilirlik ve yorumlanabilirlik gibi alanların, özellikle tıp gibi “yüksek riskli” alanlarda gelecekte daha fazla ilgi ve yatırım alacağını umuyor.
Xu, “Kaynak, bu modellerin sahip olması gereken bir sonraki adım gerçekten önemli” dedi. “Gelecekte, daha büyük bir modele bütün olarak ince ayar yapmanın artan maliyetini karşılamak için giderek daha verimli ince ayar teknikleri olacak. Model büyüdükçe, modeli uç cihazlara sığdırmak için damıtmak veya sıkıştırmak için daha fazla araştırma ve geliştirmeye ihtiyaç duyulduğundan, uç modeller önemli olmaya devam edecek.”