
Google araştırmacıları geçen hafta, büyük dil modellerinin (LLM’ler) olayların ve konuların uzun vadeli bağlamını hatırlamasını sağlayabilecek yeni bir yapay zeka (AI) mimarisini tanıttı. Mountain View merkezli teknoloji devi tarafından konuyla ilgili bir makale yayınlandı ve araştırmacılar, bu mimari kullanılarak eğitilen yapay zeka modellerinin daha “insan benzeri” bir hafıza tutma yeteneği sergilediğini iddia ediyor. Özellikle Google, yapay zeka modellerine bağlamsal bilgilerin nasıl hatırlanacağını öğretmek için yeni bir yöntem geliştirmek amacıyla geleneksel Transformatör ve Tekrarlayan Sinir Ağı (RNN) mimarilerini terk etti.
Titanlar Yapay Zeka Modellerinin Bağlam Penceresini 2 Milyondan Fazla Tokeni Ölçeklendirebilir
Projenin baş araştırmacısı Ali Behrouz, gönderildi X’teki (eski adıyla Twitter) yeni mimari hakkında. Yeni mimarinin, AI modellerine test zamanı hesaplamasında bilgilerin nasıl hatırlanacağını öğreten, dikkat içeren bir meta bağlam içi bellek sağladığını iddia etti.
Google’ın yayınladığı makaleye göre yayınlandı ön baskı çevrimiçi dergisi arXiv’de Titans mimarisi, yapay zeka modellerinin bağlam penceresini iki milyondan fazla jetona ölçeklendirebiliyor. Bellek, yapay zeka geliştiricileri için çözülmesi zor bir sorun olmuştur.
İnsanlar bilgi ve olayları bağlam içinde hatırlarlar. Birisi bir kişiye geçen hafta sonu ne giydiğini sorduğunda, son 12 yıldır tanıdığı bir kişinin doğum günü partisine katılmak gibi bağlamsal ek bilgileri hatırlayabilecektir. Geçen hafta sonu neden kahverengi bir ceket ve denim kot pantolon giydikleri sorusuna cevap veren kişi, tüm bu kısa vadeli ve uzun vadeli bilgilerle bunu bağlamsallaştırabilir.
Öte yandan yapay zeka modelleri, genellikle Transformer ve RNN mimarileri için değiştirilmiş, erişimle artırılmış nesil (RAG) sistemlerini kullanır. Bilgiyi sinir düğümleri olarak kullanır. Yani bir yapay zeka modeline bir soru sorulduğunda, ana bilgiyi içeren belirli düğümün yanı sıra ek veya ilgili bilgileri içerebilecek yakındaki düğümlere de erişir. Ancak bir sorgu çözüldüğünde, işlem gücünden tasarruf etmek için bilgiler sistemden kaldırılır.
Ancak bunun iki dezavantajı var. Birincisi, bir yapay zeka modeli uzun vadede bilgiyi hatırlayamaz. Bir oturum bittikten sonra bir takip sorusu sormak istenirse, bağlamın tamamını yeniden sunmak gerekir (insanların işleyişinden farklı olarak). İkincisi, yapay zeka modelleri, uzun vadeli bağlamı içeren bilgileri alma konusunda zayıf bir iş çıkarıyor.
Titans AI ile Behrouz ve diğer Google araştırmacıları, AI modellerinin sürekli olarak çalıştırılabilecek uzun vadeli bir bellek geliştirmesine ve bilgileri unutarak hesaplama açısından optimize edilmesine olanak tanıyan bir mimari oluşturmaya çalıştı.
Bu amaçla araştırmacılar, geçmişi bir sinir ağının parametrelerine kodlayan bir mimari tasarladılar. Üç değişken kullanıldı: Bağlam Olarak Bellek (MAC), Geçit Olarak Bellek (MAG) ve Katman Olarak Bellek (MAL). Bu varyantların her biri belirli görevler için uygundur.
Ek olarak Titans, yapay zeka modellerine bir konu hakkında beklenmedik veya önemli bilgileri hatırlamasını söyleyen sürpriz tabanlı yeni bir öğrenme sistemi kullanıyor. Bu iki değişiklik Titans mimarisinin LLM’lerde gelişmiş bellek işlevi sergilemesine olanak tanıyor.
BABILong değerlendirmesinde Titans (MAC), GPT-4, Llama3 + RAG ve Llama3-70B gibi büyük modellerden daha iyi performans göstererek 2M bağlam penceresinden daha büyük bir etkinliğe ölçeklendiği olağanüstü bir performans sergiliyor. pic.twitter.com/ZdngmtGIoW
— Ali Behrouz (@behrouz_ali) 13 Ocak 2025
Ayrı bir gönderide Behrouz, BABILong karşılaştırmasına (samanlıktaki iğne yaklaşımı) ilişkin dahili testlere dayanarak Titans (MAC) modellerinin GPT-4, LLama 3 + RAG gibi büyük yapay zeka modellerinden daha iyi performans gösterebildiğini iddia etti. ve LLama 3 70B.

