Jetonlar, günümüzün üretken yapay zekasının yetersiz kalmasının en büyük nedenlerinden biridir

Üretken AI modelleri metni insanların yaptığı şekilde işlemez. “Jeton” tabanlı iç ortamlarını anlamak, bazı garip davranışlarını ve inatçı sınırlamalarını açıklamaya yardımcı olabilir.

Gemma gibi küçük cihaz üstü modellerden OpenAI’nin endüstri lideri GPT-4o’suna kadar çoğu model, dönüştürücü olarak bilinen bir mimari üzerine inşa edilmiştir. Dönüştürücülerin metin ve diğer veri türleri arasında ilişki kurma biçimi nedeniyle, ham metni alamaz veya çıktısını alamaz — en azından büyük miktarda hesaplama olmadan.

Dolayısıyla, hem pragmatik hem de teknik nedenlerden ötürü, günümüzün dönüştürücü modelleri, token adı verilen daha küçük, lokma büyüklüğündeki parçalara bölünmüş metinlerle çalışır; bu işleme tokenleştirme denir.

Jetonlar, “fantastik” gibi kelimeler olabilir. Ya da “fan”, “tas” ve “tic” gibi heceler olabilir. Jetonlaştırıcıya (jetonlaştırmayı yapan model) bağlı olarak, kelimelerdeki tek tek karakterler bile olabilirler (örneğin, “f”, “a”, “n”, “t”, “a”, “s”, “t”, “i”, “c”).

Bu yöntemi kullanarak, dönüştürücüler bağlam penceresi olarak bilinen bir üst sınıra ulaşmadan önce daha fazla bilgi (anlamsal anlamda) alabilirler. Ancak belirteçleştirme önyargılar da getirebilir.

Bazı token’ların garip aralıkları vardır, bu da raydan çıkarmak bir dönüştürücü. Bir belirteçleyici, örneğin “bir zamanlar” ifadesini “bir zamanlar”, “üzerine”, “bir”, “zaman” olarak kodlayabilirken, “bir zamanlar” ifadesini (sonunda boşluk olan) “bir zamanlar”, “üzerine”, “bir”, “” olarak kodlayabilir. Bir modelin nasıl uyarıldığına bağlı olarak — “bir zamanlar” veya “bir zamanlar” ile — sonuçlar tamamen farklı olabilir, çünkü model (bir kişinin anlayacağı gibi) anlamın aynı olduğunu anlamaz.

Tokenleştiriciler de durumu farklı ele alır. “Merhaba” bir model için “HELLO” ile aynı olmayabilir; “hello” genellikle bir tokendir (tokenleştiriciye bağlı olarak) ve “HELLO” üçe kadar olabilir (“HE”, “El” ve “O”). Bu yüzden birçok transformatör başarısız olur büyük harf testi.

“Bir dil modeli için tam olarak bir ‘kelime’nin ne olması gerektiği sorusunun etrafından dolanmak biraz zor ve insan uzmanları mükemmel bir belirteç sözlüğü konusunda anlaşsalar bile, modeller muhtemelen şeyleri daha da fazla ‘parçalamak’ için bunu faydalı bulacaktır,” dedi Northeastern Üniversitesi’nde büyük dil modeli yorumlanabilirliği üzerine çalışan bir doktora öğrencisi olan Sheridan Feucht TechCrunch’a. “Tahminimce bu tür bir belirsizlik nedeniyle mükemmel bir belirteç ayırıcı diye bir şey yoktur.”

Bu “bulanıklık” İngilizce dışındaki dillerde daha da fazla sorun yaratıyor.

Birçok belirteçleme yöntemi, bir cümledeki boşluğun yeni bir kelimeyi ifade ettiğini varsayar. Bunun nedeni, İngilizce düşünülerek tasarlanmış olmalarıdır. Ancak tüm diller kelimeleri ayırmak için boşluk kullanmaz. Çince ve Japonca bunu yapmaz — Korece, Tayca veya Khmerce de yapmaz.

2023 Oxford çalışmak İngilizce olmayan dillerin belirteçleştirilme biçimindeki farklılıklar nedeniyle, bir dönüştürücünün İngilizce olmayan bir dilde ifade edilen bir görevi tamamlamasının, aynı görevi İngilizce olarak ifade etmeye kıyasla iki kat daha uzun sürebileceğini buldu. Aynı çalışma — ve bir diğer — daha az “jeton verimliliğine sahip” dilleri kullananların, birçok yapay zeka satıcısının jeton başına ücret aldığı göz önüne alındığında, daha kötü model performansı görme olasılıklarının yüksek olduğu ancak kullanım için daha fazla ödeme yaptıkları bulundu.

Tokenleştiriciler genellikle logografik yazı sistemlerindeki her bir karakteri — basılı sembollerin telaffuzla ilişkisi olmayan kelimeleri temsil ettiği sistemler, örneğin Çince — ayrı bir token olarak ele alır ve bu da yüksek token sayılarına yol açar. Benzer şekilde, aglutinatif dilleri işleyen tokenleştiriciler — kelimelerin morfem adı verilen küçük anlamlı kelime öğelerinden oluştuğu diller, örneğin Türkçe — her bir morfemini bir tokene dönüştürme eğilimindedir ve bu da genel token sayılarını artırır. (Taycada “merhaba” için eşdeğer kelime olan สวัสดี, altı tokendir.)

2023 yılında Google DeepMind AI araştırmacısı Yennie Jun yürütülen farklı dillerin tokenizasyonunu ve bunun aşağı yönlü etkilerini karşılaştıran bir analiz. Jun, 52 dile çevrilmiş paralel metinlerden oluşan bir veri kümesi kullanarak, bazı dillerin İngilizcede aynı anlamı yakalamak için 10 kata kadar daha fazla tokene ihtiyaç duyduğunu gösterdi.

Dil eşitsizliklerinin ötesinde, tokenleştirme bugünün modellerinin neden kötü olduğunu açıklayabilir. matematik.

Rakamlar nadiren tutarlı bir şekilde belirteçleştirilir. Sayıların ne olduğunu gerçekten bilmediklerinden, belirteçleştiriciler “380”i tek bir belirteç olarak ele alabilir, ancak “381”i bir çift (“38” ve “1”) olarak gösterebilir — etkili bir şekilde ilişkileri mahvediyor denklemlerde ve formüllerde rakamlar ve sonuçlar arasında. Sonuç transformatör karışıklığıdır; yakın zamanda kağıt modellerin tekrarlayan sayısal kalıpları ve bağlamı, özellikle de zamansal verileri anlamakta zorluk çektiğini gösterdi. (Bkz: GPT-4 düşünüyor 7.735, 7.926’dan büyüktür).

Modellerin bu kadar popüler olmasının sebebi de bu anagram problemlerini çözmede pek iyi değiller veya kelimeleri ters çevirmek.

LLM’lerin birçok tuhaf davranışının ve sorunlarının aslında tokenleştirmeye dayandığını göreceğiz. Bu sorunların birçoğunu ele alacağız, tokenleştirmenin neden hatalı olduğunu ve neden birisinin bu aşamayı tamamen silmenin bir yolunu bulduğunu tartışacağız. resim.twitter.com/5haV7FvbBx

— Andrej Karpathy (@karpathy) 20 Şubat 2024

Yani, tokenleştirme açıkça üretken AI için zorluklar sunuyor. Bunlar çözülebilir mi?

Belki.

Feucht, “bayt düzeyindeki” durum alanı modellerine işaret ediyor MambaBayttokenizasyonu tamamen ortadan kaldırarak performans kaybı olmadan dönüştürücülerden çok daha fazla veriyi sindirebilir. Metni ve diğer verileri temsil eden ham baytlarla doğrudan çalışan MambaByte, yer değiştirmiş karakterler, boşluklar ve büyük harflerle yazılmış karakterler gibi “gürültüyü” daha iyi işlerken dil analiz görevlerinde bazı dönüştürücü modellerle rekabet edebilir.

Ancak MambaByte gibi modeller henüz erken araştırma aşamasında.

“Modellerin tokenizasyon dayatmadan karakterlere doğrudan bakmasına izin vermek muhtemelen en iyisidir, ancak şu anda bu dönüştürücüler için hesaplama açısından uygulanabilir değil,” dedi Feucht. “Özellikle dönüştürücü modeller için hesaplama, dizi uzunluğuyla ikinci dereceden ölçeklenir ve bu nedenle gerçekten kısa metin gösterimleri kullanmak istiyoruz.”

Tokenizasyonda bir atılım olmazsa, yeni model mimarilerinin anahtar olacağı anlaşılıyor.

genel-24

Byteknomers

By teknomers

Benzer İçerikler

Google, DOJ düzenleyicilerinin Chrome satışını ve Android kısıtlamalarını zorunlu kılma teklifine yanıt verdi

Microsoft’un Windows 365 Bağlantısı, paylaşılan çalışma alanlarına yönelik ince istemci cihazıdır – Computerworld

STALKER 2 etkileşimli haritası: The Zone’daki her zulayı, konumu ve daha fazlasını bulun

Nitro Deck Nintendo Switch Denetleyici Paketleri Amazon’da Büyük İndirime Girdi

AMD, oyuncuların hız aşırtma için AMD Ryzen 7800X3D’den 9800X3D’ye geçiş yapacağını söylüyor

Terraria’nın En İyi Mühimmatı, Dereceli

Jinx Her Şeyi Düzeltir 1. bölüm kılavuzu – tam açıklamalı açıklama

Pixel telefonlar ve bazı Android modelleri, Google Keep uygulamasında harika bir AI listesi oluşturma aracına sahip oluyor

Amazon, Samsung’un yeni ve sıcak Galaxy Buds 3 Pro’sunu Black Friday’de 60 $ indirimle satın alınması gereken bir ürün haline getiriyor

Yeni teknoloji, işlemci performansını stok kıyaslamalarının ötesinde artırmayı vaat ediyor

iPhone 16’nız, Apple’ın 2026’da reklamını yaptığı şeyi sunacak

Yaşamın kökeni araştırması, RNA’nın hem sol hem de sağ elini kullanan proteinleri destekleyebileceğini ortaya koyuyor

Gökbilimciler galaksimizin dışındaki bir yıldızın ilk yakın çekim fotoğrafını çekti

NASA’nın Swift’i geliştirilmiş işaretleme modunda 20. yıl dönümüne ulaştı

NASA okyanus dünyası kaşifleri uçmadan önce yüzmek zorunda

İlginizi Çekebilir

Google, DOJ düzenleyicilerinin Chrome satışını ve Android kısıtlamalarını zorunlu kılma teklifine yanıt verdi

My Hero Academia’nın Son Cildi Yeni İçerikle Japonya’da Yayınlanacak

Microsoft’un Windows 365 Bağlantısı, paylaşılan çalışma alanlarına yönelik ince istemci cihazıdır – Computerworld

STALKER 2 etkileşimli haritası: The Zone’daki her zulayı, konumu ve daha fazlasını bulun