Tarihsel olarak ve bugün bile, zayıf bellek, metin üreten yapay zekanın kullanışlılığının önünde bir engel olmuştur. The Atlantic’teki yeni bir parça olarak uygun bir şekilde koyar ChatGPT gibi gelişmiş üretken metin yapay zekası bile bir akvaryum balığının hafızasına sahiptir. Model her yanıt oluşturduğunda, yalnızca çok sınırlı miktarda metni hesaba katar ve örneğin bir kitabı özetlemesini veya büyük bir kodlama projesini gözden geçirmesini engeller.

Ama Anthropic bunu değiştirmeye çalışıyor.

Bugün, yapay zeka araştırma girişimi ilan edildi hala önizlemede olan en önemli metin üreten AI modeli olan Claude için bağlam penceresini 9.000 jetondan 100.000 jetona genişlettiğini. Bağlam penceresi, modelin ek metin oluşturmadan önce dikkate aldığı metne atıfta bulunurken, belirteçler ham metni temsil eder (örneğin, “fantastik” kelimesi, “fan”, “tas” ve “tic” belirteçlerine bölünür).

Peki önemi tam olarak nedir? Daha önce ima edildiği gibi, küçük bağlam pencerelerine sahip modeller, en son konuşmaların içeriğini bile “unutma” eğilimindedir ve bu da onları konudan saptırmaya yönlendirir. Yaklaşık birkaç bin kelimeden sonra, ilk yönergelerini de unuturlar, bunun yerine davranışlarını orijinal istekten ziyade bağlam pencerelerindeki son bilgilerden tahmin ederler.

Büyük bağlam pencerelerinin faydaları göz önüne alındığında, bunları genişletmenin yollarını bulmanın, tüm ekibi konuya adayan OpenAI gibi yapay zeka laboratuvarlarının ana odak noktası haline gelmesi şaşırtıcı değil. OpenAI’nin GPT-4’ü, üst uçta 32.000 jeton ağırlığıyla bağlam penceresi boyutları açısından önceki tacı elinde tutuyordu – ancak geliştirilmiş Claude API’si bunu geride bırakıyor.

Daha büyük bir “hafıza” ile Claude, dakikalar yerine nispeten tutarlı bir şekilde saatlerce – hatta birkaç gün – konuşabilmelidir. Ve belki daha da önemlisi, raydan çıkma olasılığı daha düşük olmalıdır.

Bir blog gönderisinde Anthropic, modelin yüzlerce sayfalık materyali sindirme ve analiz etme yeteneği de dahil olmak üzere Claude’un artırılmış bağlam penceresinin diğer faydalarını öne sürüyor. Anthropic, uzun metinleri okumanın ötesinde, yükseltilmiş Claude’un birden çok belgeden ve hatta bir kitaptan bilgi alınmasına yardımcı olabileceğini söylüyor ve metnin birçok bölümünde “bilgi sentezi” gerektiren soruları yanıtlıyor.

Antropik, birkaç olası kullanım durumunu listeler:

  • Finansal tablolar veya araştırma kağıtları gibi belgeleri sindirmek, özetlemek ve açıklamak
  • Yıllık raporlara dayalı olarak bir şirket için risk ve fırsatların analizi
  • Bir mevzuatın artılarını ve eksilerini değerlendirmek
  • Yasal belgelerdeki riskleri, temaları ve farklı tartışma biçimlerini belirleme.
  • Yüzlerce sayfalık geliştirici belgelerini okuma ve teknik soruların yanıtlarını ortaya çıkarma
  • Bütün bir kod tabanını bağlama bırakarak ve onu akıllıca geliştirerek veya değiştirerek hızlı bir şekilde prototip oluşturma

Anthropic, “Ortalama bir kişi yaklaşık beş saat içinde 100.000 belirteçlik metin okuyabilir ve ardından bu bilgiyi sindirmek, hatırlamak ve analiz etmek için çok daha uzun süreye ihtiyaç duyabilir” diye devam ediyor. “Claude artık bunu bir dakikadan daha kısa sürede yapabiliyor. Örneğin, The Great Gatsby’nin tüm metnini Claude’a yükledik… ve bir satırı Bay Carraway’in “Anthropic’te makine öğrenimi araçları üzerinde çalışan bir yazılım mühendisi” olduğunu söyleyecek şekilde değiştirdik. Modelden neyin farklı olduğunu bulmasını istediğimizde, 22 saniyede doğru cevabı verdi.”

Şimdi, daha uzun bağlam pencereleri, büyük dil modelleri etrafındaki bellekle ilgili diğer zorlukları çözmüyor. Claude, sınıfındaki çoğu model gibi, bir oturumdan diğerine bilgi tutamaz. Ve insan beyninin aksine, her bilgi parçasına eşit derecede önemli davranır, bu da onu özellikle güvenilir bir anlatıcı yapmaz. Bazı uzmanlar, bu sorunları çözmenin tamamen yeni model mimarileri gerektireceğine inanıyor.

Ancak şimdilik Antropik ön planda görünüyor.



genel-24