Transformatör olarak bilinen yapay zeka formunun yıllardır hakimiyet kurmasının ardından, yeni mimariler için av başladı.

Transformatörler, OpenAI’nin video üreten modeli Sora’nın temelini oluşturur ve Anthropic’in Claude, Google’ın Gemini ve GPT-4o gibi metin üreten modellerin kalbinde yer alırlar. Ancak teknik engellerle karşılaşmaya başlıyorlar – özellikle hesaplamayla ilgili engeller.

Transformatörler, en azından hazır donanımlarda çalışırken, büyük miktarda veriyi işleme ve analiz etme konusunda özellikle verimli değiller. Ve bu, dik ve belki de sürdürülemez Şirketler trafo gereksinimlerini karşılamak için altyapı inşa edip genişlettikçe güç talebindeki artışlar.

Bu ay önerilen gelecek vaat eden bir mimari: test zamanı eğitimi (TTT)Stanford, UC San Diego, UC Berkeley ve Meta’daki araştırmacılar tarafından bir buçuk yıl boyunca geliştirilen. Araştırma ekibi, TTT modellerinin dönüştürücülerden çok daha fazla veriyi işleyebildiğini, ancak bunu neredeyse aynı miktarda işlem gücü tüketmeden yapabildiğini iddia ediyor.

Transformatörlerdeki gizli durum

Transformatörlerin temel bir bileşeni, esasen uzun bir veri listesi olan “gizli durum”dur. Bir transformatör bir şeyi işlerken, az önce işlediğini “hatırlamak” için gizli duruma girdiler ekler. Örneğin, model bir kitapta ilerliyorsa, gizli durum değerleri kelimelerin (veya kelimelerin parçalarının) temsilleri gibi şeyler olacaktır.

“Bir transformatörü akıllı bir varlık olarak düşünürseniz, o zaman arama tablosu -gizli hali- transformatörün beynidir,” diyor Stanford’da doktora sonrası araştırmacı ve TTT araştırmasına katkıda bulunanlardan Yu Sun, TechCrunch’a. “Bu özel beyin, transformatörlerin bağlam içi öğrenme gibi iyi bilinen yeteneklerini mümkün kılıyor.”

Gizli durum, transformatörleri bu kadar güçlü kılan şeyin bir parçasıdır. Ancak aynı zamanda onları engeller. Bir transformatörün yeni okuduğu bir kitap hakkında tek bir kelime bile “söylemek” için, modelin tüm arama tablosunu taraması gerekirdi – bu, tüm kitabı yeniden okumak kadar hesaplama açısından zorlayıcı bir görevdir.

Böylece Sun ve ekibi gizli durumu bir makine öğrenimi modeliyle değiştirme fikrini ortaya attılar; bir bakıma yapay zekanın iç içe geçmiş bebekleri gibi, bir modelin içinde bir model gibi.

Biraz teknik ama özü şu ki TTT modelinin dahili makine öğrenme modeli, bir dönüştürücünün arama tablosunun aksine, ek verileri işledikçe büyümez ve büyümez. Bunun yerine, işlediği verileri ağırlık adı verilen temsili değişkenlere kodlar ve bu da TTT modellerini oldukça performanslı hale getirir. Bir TTT modeli ne kadar veri işlerse işlesin, dahili modelinin boyutu değişmez.

Sun, gelecekteki TTT modellerinin kelimelerden görüntülere, ses kayıtlarından videolara kadar milyarlarca veri parçasını verimli bir şekilde işleyebileceğine inanıyor. Bu, günümüz modellerinin yeteneklerinin çok ötesinde.

Sun, “Sistemimiz, kitabı X kez tekrar okumanın hesaplama karmaşıklığı olmadan bir kitap hakkında X kelime söyleyebilir,” dedi. “Sora gibi transformatörlere dayalı büyük video modelleri, yalnızca bir arama tablosu ‘beyni’ olduğundan yalnızca 10 saniyelik videoyu işleyebilir. Nihai hedefimiz, bir insan hayatının görsel deneyimine benzeyen uzun bir videoyu işleyebilen bir sistem geliştirmek.”

TTT modelleri etrafındaki şüphecilik

Peki TTT modelleri sonunda transformatörlerin yerini alacak mı? Alabilirler. Ancak kesin olarak söylemek için henüz çok erken.

TTT modelleri transformatörler için anında değiştirilebilir bir yedek değildir. Ve araştırmacılar çalışma için sadece iki küçük model geliştirdiler, bu da TTT’yi şu anda piyasadaki daha büyük transformatör uygulamalarıyla karşılaştırmayı zorlaştıran bir yöntem haline getiriyor.

“Bence bu tamamen ilginç bir yenilik ve eğer veriler verimlilik kazanımları sağladığı iddialarını destekliyorsa bu harika bir haber, ancak mevcut mimarilerden daha iyi olup olmadığını söyleyemem,” diyor King’s College London’ın bilişim bölümünde kıdemli öğretim görevlisi olan ve TTT araştırmasında yer almayan Mike Cook. “Ben lisans öğrencisiyken eski bir hocam bir şaka anlatırdı: Bilgisayar biliminde herhangi bir problemi nasıl çözersiniz? Başka bir soyutlama katmanı ekleyin. Bir sinir ağının içine bir sinir ağı eklemek bana kesinlikle bunu hatırlatıyor.”

Bununla birlikte, transformatör alternatiflerine yönelik araştırmaların hızlanması, bir atılıma duyulan ihtiyacın giderek daha fazla kabul gördüğüne işaret ediyor.

Bu hafta, yapay zeka girişimi Mistral, dönüştürücüye alternatif olarak durum uzayı modelleri (SSM) adı verilen bir model olan Codestral Mamba’yı yayınladı. TTT modelleri gibi SSM’ler de dönüştürücülerden daha fazla hesaplama verimliliğine sahip görünüyor ve daha büyük miktarda veriye ölçeklenebiliyor.

AI21 Labs ayrıca SSM’leri de araştırıyor. Kartezyenİlk SSM’lerin bazılarını ve Codestral Mamba’nın isim babaları olan Mamba ve Mamba-2’yi geliştiren.

Bu çabalar başarılı olursa, üretken yapay zeka şu an olduğundan daha da erişilebilir ve yaygın hale gelebilir; iyi ya da kötü.



genel-24