Üretken AI modelleri metni insanların yaptığı şekilde işlemez. “Jeton” tabanlı iç ortamlarını anlamak, bazı garip davranışlarını ve inatçı sınırlamalarını açıklamaya yardımcı olabilir.
Gemma gibi küçük cihaz üstü modellerden OpenAI’nin endüstri lideri GPT-4o’suna kadar çoğu model, dönüştürücü olarak bilinen bir mimari üzerine inşa edilmiştir. Dönüştürücülerin metin ve diğer veri türleri arasında ilişki kurma biçimi nedeniyle, ham metni alamaz veya çıktısını alamaz — en azından büyük miktarda hesaplama olmadan.
Dolayısıyla, hem pragmatik hem de teknik nedenlerden ötürü, günümüzün dönüştürücü modelleri, token adı verilen daha küçük, lokma büyüklüğündeki parçalara bölünmüş metinlerle çalışır; bu işleme tokenleştirme denir.
Jetonlar, “fantastik” gibi kelimeler olabilir. Ya da “fan”, “tas” ve “tic” gibi heceler olabilir. Jetonlaştırıcıya (jetonlaştırmayı yapan model) bağlı olarak, kelimelerdeki tek tek karakterler bile olabilirler (örneğin, “f”, “a”, “n”, “t”, “a”, “s”, “t”, “i”, “c”).
Bu yöntemi kullanarak, dönüştürücüler bağlam penceresi olarak bilinen bir üst sınıra ulaşmadan önce daha fazla bilgi (anlamsal anlamda) alabilirler. Ancak belirteçleştirme önyargılar da getirebilir.
Bazı token’ların garip aralıkları vardır, bu da raydan çıkarmak bir dönüştürücü. Bir belirteçleyici, örneğin “bir zamanlar” ifadesini “bir zamanlar”, “üzerine”, “bir”, “zaman” olarak kodlayabilirken, “bir zamanlar” ifadesini (sonunda boşluk olan) “bir zamanlar”, “üzerine”, “bir”, “” olarak kodlayabilir. Bir modelin nasıl uyarıldığına bağlı olarak — “bir zamanlar” veya “bir zamanlar” ile — sonuçlar tamamen farklı olabilir, çünkü model (bir kişinin anlayacağı gibi) anlamın aynı olduğunu anlamaz.
Tokenleştiriciler de durumu farklı ele alır. “Merhaba” bir model için “HELLO” ile aynı olmayabilir; “hello” genellikle bir tokendir (tokenleştiriciye bağlı olarak) ve “HELLO” üçe kadar olabilir (“HE”, “El” ve “O”). Bu yüzden birçok transformatör başarısız olur büyük harf testi.
“Bir dil modeli için tam olarak bir ‘kelime’nin ne olması gerektiği sorusunun etrafından dolanmak biraz zor ve insan uzmanları mükemmel bir belirteç sözlüğü konusunda anlaşsalar bile, modeller muhtemelen şeyleri daha da fazla ‘parçalamak’ için bunu faydalı bulacaktır,” dedi Northeastern Üniversitesi’nde büyük dil modeli yorumlanabilirliği üzerine çalışan bir doktora öğrencisi olan Sheridan Feucht TechCrunch’a. “Tahminimce bu tür bir belirsizlik nedeniyle mükemmel bir belirteç ayırıcı diye bir şey yoktur.”
Bu “bulanıklık” İngilizce dışındaki dillerde daha da fazla sorun yaratıyor.
Birçok belirteçleme yöntemi, bir cümledeki boşluğun yeni bir kelimeyi ifade ettiğini varsayar. Bunun nedeni, İngilizce düşünülerek tasarlanmış olmalarıdır. Ancak tüm diller kelimeleri ayırmak için boşluk kullanmaz. Çince ve Japonca bunu yapmaz — Korece, Tayca veya Khmerce de yapmaz.
2023 Oxford çalışmak İngilizce olmayan dillerin belirteçleştirilme biçimindeki farklılıklar nedeniyle, bir dönüştürücünün İngilizce olmayan bir dilde ifade edilen bir görevi tamamlamasının, aynı görevi İngilizce olarak ifade etmeye kıyasla iki kat daha uzun sürebileceğini buldu. Aynı çalışma — ve bir diğer — daha az “jeton verimliliğine sahip” dilleri kullananların, birçok yapay zeka satıcısının jeton başına ücret aldığı göz önüne alındığında, daha kötü model performansı görme olasılıklarının yüksek olduğu ancak kullanım için daha fazla ödeme yaptıkları bulundu.
Tokenleştiriciler genellikle logografik yazı sistemlerindeki her bir karakteri — basılı sembollerin telaffuzla ilişkisi olmayan kelimeleri temsil ettiği sistemler, örneğin Çince — ayrı bir token olarak ele alır ve bu da yüksek token sayılarına yol açar. Benzer şekilde, aglutinatif dilleri işleyen tokenleştiriciler — kelimelerin morfem adı verilen küçük anlamlı kelime öğelerinden oluştuğu diller, örneğin Türkçe — her bir morfemini bir tokene dönüştürme eğilimindedir ve bu da genel token sayılarını artırır. (Taycada “merhaba” için eşdeğer kelime olan สวัสดี, altı tokendir.)
2023 yılında Google DeepMind AI araştırmacısı Yennie Jun yürütülen farklı dillerin tokenizasyonunu ve bunun aşağı yönlü etkilerini karşılaştıran bir analiz. Jun, 52 dile çevrilmiş paralel metinlerden oluşan bir veri kümesi kullanarak, bazı dillerin İngilizcede aynı anlamı yakalamak için 10 kata kadar daha fazla tokene ihtiyaç duyduğunu gösterdi.
Dil eşitsizliklerinin ötesinde, tokenleştirme bugünün modellerinin neden kötü olduğunu açıklayabilir. matematik.
Rakamlar nadiren tutarlı bir şekilde belirteçleştirilir. Sayıların ne olduğunu gerçekten bilmediklerinden, belirteçleştiriciler “380”i tek bir belirteç olarak ele alabilir, ancak “381”i bir çift (“38” ve “1”) olarak gösterebilir — etkili bir şekilde ilişkileri mahvediyor denklemlerde ve formüllerde rakamlar ve sonuçlar arasında. Sonuç transformatör karışıklığıdır; yakın zamanda kağıt modellerin tekrarlayan sayısal kalıpları ve bağlamı, özellikle de zamansal verileri anlamakta zorluk çektiğini gösterdi. (Bkz: GPT-4 düşünüyor 7.735, 7.926’dan büyüktür).
Modellerin bu kadar popüler olmasının sebebi de bu anagram problemlerini çözmede pek iyi değiller veya kelimeleri ters çevirmek.
Yani, tokenleştirme açıkça üretken AI için zorluklar sunuyor. Bunlar çözülebilir mi?
Belki.
Feucht, “bayt düzeyindeki” durum alanı modellerine işaret ediyor MambaBayttokenizasyonu tamamen ortadan kaldırarak performans kaybı olmadan dönüştürücülerden çok daha fazla veriyi sindirebilir. Metni ve diğer verileri temsil eden ham baytlarla doğrudan çalışan MambaByte, yer değiştirmiş karakterler, boşluklar ve büyük harflerle yazılmış karakterler gibi “gürültüyü” daha iyi işlerken dil analiz görevlerinde bazı dönüştürücü modellerle rekabet edebilir.
Ancak MambaByte gibi modeller henüz erken araştırma aşamasında.
“Modellerin tokenizasyon dayatmadan karakterlere doğrudan bakmasına izin vermek muhtemelen en iyisidir, ancak şu anda bu dönüştürücüler için hesaplama açısından uygulanabilir değil,” dedi Feucht. “Özellikle dönüştürücü modeller için hesaplama, dizi uzunluğuyla ikinci dereceden ölçeklenir ve bu nedenle gerçekten kısa metin gösterimleri kullanmak istiyoruz.”
Tokenizasyonda bir atılım olmazsa, yeni model mimarilerinin anahtar olacağı anlaşılıyor.