TTT modelleri, üretken yapay zekanın bir sonraki sınırı olabilir

Transformatör olarak bilinen yapay zeka formunun yıllardır hakimiyet kurmasının ardından, yeni mimariler için av başladı.

Transformatörler, OpenAI’nin video üreten modeli Sora’nın temelini oluşturur ve Anthropic’in Claude, Google’ın Gemini ve GPT-4o gibi metin üreten modellerin kalbinde yer alırlar. Ancak teknik engellerle karşılaşmaya başlıyorlar – özellikle hesaplamayla ilgili engeller.

Transformatörler, en azından hazır donanımlarda çalışırken, büyük miktarda veriyi işleme ve analiz etme konusunda özellikle verimli değiller. Ve bu, dik ve belki de sürdürülemez Şirketler trafo gereksinimlerini karşılamak için altyapı inşa edip genişlettikçe güç talebindeki artışlar.

Bu ay önerilen gelecek vaat eden bir mimari: test zamanı eğitimi (TTT)Stanford, UC San Diego, UC Berkeley ve Meta’daki araştırmacılar tarafından bir buçuk yıl boyunca geliştirilen. Araştırma ekibi, TTT modellerinin dönüştürücülerden çok daha fazla veriyi işleyebildiğini, ancak bunu neredeyse aynı miktarda işlem gücü tüketmeden yapabildiğini iddia ediyor.

Transformatörlerdeki gizli durum

Transformatörlerin temel bir bileşeni, esasen uzun bir veri listesi olan “gizli durum”dur. Bir transformatör bir şeyi işlerken, az önce işlediğini “hatırlamak” için gizli duruma girdiler ekler. Örneğin, model bir kitapta ilerliyorsa, gizli durum değerleri kelimelerin (veya kelimelerin parçalarının) temsilleri gibi şeyler olacaktır.

“Bir transformatörü akıllı bir varlık olarak düşünürseniz, o zaman arama tablosu -gizli hali- transformatörün beynidir,” diyor Stanford’da doktora sonrası araştırmacı ve TTT araştırmasına katkıda bulunanlardan Yu Sun, TechCrunch’a. “Bu özel beyin, transformatörlerin bağlam içi öğrenme gibi iyi bilinen yeteneklerini mümkün kılıyor.”

Gizli durum, transformatörleri bu kadar güçlü kılan şeyin bir parçasıdır. Ancak aynı zamanda onları engeller. Bir transformatörün yeni okuduğu bir kitap hakkında tek bir kelime bile “söylemek” için, modelin tüm arama tablosunu taraması gerekirdi – bu, tüm kitabı yeniden okumak kadar hesaplama açısından zorlayıcı bir görevdir.

Böylece Sun ve ekibi gizli durumu bir makine öğrenimi modeliyle değiştirme fikrini ortaya attılar; bir bakıma yapay zekanın iç içe geçmiş bebekleri gibi, bir modelin içinde bir model gibi.

Biraz teknik ama özü şu ki TTT modelinin dahili makine öğrenme modeli, bir dönüştürücünün arama tablosunun aksine, ek verileri işledikçe büyümez ve büyümez. Bunun yerine, işlediği verileri ağırlık adı verilen temsili değişkenlere kodlar ve bu da TTT modellerini oldukça performanslı hale getirir. Bir TTT modeli ne kadar veri işlerse işlesin, dahili modelinin boyutu değişmez.

Sun, gelecekteki TTT modellerinin kelimelerden görüntülere, ses kayıtlarından videolara kadar milyarlarca veri parçasını verimli bir şekilde işleyebileceğine inanıyor. Bu, günümüz modellerinin yeteneklerinin çok ötesinde.

Sun, “Sistemimiz, kitabı X kez tekrar okumanın hesaplama karmaşıklığı olmadan bir kitap hakkında X kelime söyleyebilir,” dedi. “Sora gibi transformatörlere dayalı büyük video modelleri, yalnızca bir arama tablosu ‘beyni’ olduğundan yalnızca 10 saniyelik videoyu işleyebilir. Nihai hedefimiz, bir insan hayatının görsel deneyimine benzeyen uzun bir videoyu işleyebilen bir sistem geliştirmek.”

TTT modelleri etrafındaki şüphecilik

Peki TTT modelleri sonunda transformatörlerin yerini alacak mı? Alabilirler. Ancak kesin olarak söylemek için henüz çok erken.

TTT modelleri transformatörler için anında değiştirilebilir bir yedek değildir. Ve araştırmacılar çalışma için sadece iki küçük model geliştirdiler, bu da TTT’yi şu anda piyasadaki daha büyük transformatör uygulamalarıyla karşılaştırmayı zorlaştıran bir yöntem haline getiriyor.

“Bence bu tamamen ilginç bir yenilik ve eğer veriler verimlilik kazanımları sağladığı iddialarını destekliyorsa bu harika bir haber, ancak mevcut mimarilerden daha iyi olup olmadığını söyleyemem,” diyor King’s College London’ın bilişim bölümünde kıdemli öğretim görevlisi olan ve TTT araştırmasında yer almayan Mike Cook. “Ben lisans öğrencisiyken eski bir hocam bir şaka anlatırdı: Bilgisayar biliminde herhangi bir problemi nasıl çözersiniz? Başka bir soyutlama katmanı ekleyin. Bir sinir ağının içine bir sinir ağı eklemek bana kesinlikle bunu hatırlatıyor.”

Bununla birlikte, transformatör alternatiflerine yönelik araştırmaların hızlanması, bir atılıma duyulan ihtiyacın giderek daha fazla kabul gördüğüne işaret ediyor.

Bu hafta, yapay zeka girişimi Mistral, dönüştürücüye alternatif olarak durum uzayı modelleri (SSM) adı verilen bir model olan Codestral Mamba’yı yayınladı. TTT modelleri gibi SSM’ler de dönüştürücülerden daha fazla hesaplama verimliliğine sahip görünüyor ve daha büyük miktarda veriye ölçeklenebiliyor.

AI21 Labs ayrıca SSM’leri de araştırıyor. Kartezyenİlk SSM’lerin bazılarını ve Codestral Mamba’nın isim babaları olan Mamba ve Mamba-2’yi geliştiren.

Bu çabalar başarılı olursa, üretken yapay zeka şu an olduğundan daha da erişilebilir ve yaygın hale gelebilir; iyi ya da kötü.

genel-24

Byteknomers

Transformatörlerdeki gizli durum

TTT modelleri etrafındaki şüphecilik

By teknomers

Benzer İçerikler

ARM tabanlı Copilot+ PC’ler çok az yedekleme seçeneği sunuyor – Computerworld

En iyi Amazon Prime Day 2024 dizüstü bilgisayar fırsatları

Bill Weber, Firefly Aerospace CEO’luğundan ayrıldı

EA Sports FC 25 Kapak Yıldızı Açıklandı

Scuf Envision Pro PC Kontrolcüsü Prime Day’de Tüm Zamanların En Düşük Fiyatına Düştü

Call of Duty: Modern Warfare 3 ve Warzone Sezon 5 Yeni İçerikler Açıklandı

Yeni DBD yaması jeneratör kaosuna ve oyun arayüzü oyuncularının tepkisine neden oluyor

Samsung, Galaxy Z Fold telefonlarında daha iyi uygulama deneyimi için One UI 6.1.1’de dar görünüm özelliğini tanıttı

Verilerle dolu üç yeni hava durumu widget’ı Android’e gelebilir

Daha fazla çalışan, T-Mobile müşterisi olmak için muhtemelen en kötü zamanın neden bu olduğunu açıklıyor

Android Auto, gelecekteki bir güncellemede araç radyosu kontrollerini entegre etmek için çalışıyor

Güçlü Bir X1.9 Güneş Parlaması Serbest Bırakıldı

Gökbilimciler, sıcak Jüpiter olma yolunda ilerleyen ‘çok eksantrik’ bir gezegen tespit etti

Webb, Cassiopeia A’nın Genç Süpernovasında Muhteşem Ejektaları ve Karmaşık Yapıları Ortaya Çıkardı

Elon Musk, SpaceX ve X’in merkezini Kaliforniya’dan Teksas’a taşıyacağını söyledi

İlginizi Çekebilir

ARM tabanlı Copilot+ PC’ler çok az yedekleme seçeneği sunuyor – Computerworld

En iyi Amazon Prime Day 2024 dizüstü bilgisayar fırsatları

Deezer’ın yeni yapay zekalı çalma listesi yapımcısı, Spotify, Amazon ve YouTube Music’e DJ savaşında meydan okuyor

Bill Weber, Firefly Aerospace CEO’luğundan ayrıldı