Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Yazı Tipi BoyutlandırıcıAa
  • Anasayfa
  • Teknoloji
    • Siber Güvenlik
    • Yapay Zeka
    • Donanım
    • Bilim
  • Yazılım
  • Savunma & İstihbarat
  • Oyun
  • Yaşam
    • Finans
    • Sinema
    • Dünyadan Haberler
  • İş Birliği
Okuma: Microsoft ve TikTok üretken AI ‘belleği’ veriyor
Paylaş
Yazı Tipi BoyutlandırıcıAa
Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Ara
Bizi Takip Et
  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti
© 2026 Teknomers. All Rights Reserved.

Anasayfa » Microsoft ve TikTok üretken AI ‘belleği’ veriyor

Genel

Microsoft ve TikTok üretken AI ‘belleği’ veriyor

teknomers
Son güncelleme: 10 Temmuz 2023 11:59
teknomers
Paylaş
Paylaş


Contents
  • Bilgi istemi uzunluk sınırı sorunu
  • Bellek senkronizasyonu
  • Sindirim Projesi Gutenberg, arXiv Dosya Sunucusu ve ChapterBreak
  • Yazma tekniğinin merkezinde
  • Herhangi bir LLM’nin çok uzun bilgi dizilerini depolamasına izin veren bir program
  • İstem zamanında çağrılan bir “bellek akışı”
  • Microsoft ve TikTok’un çalışması, dil modellerinin orijinal amacının bir uzantısıdır
  • LLM belleği için hangi kullanım durumları?

ChatGPT gibi bir üretken yapay zeka (AI) programının istemine bir komut (bilgi istemi) yazdığınızda, program size yalnızca yazdıklarınıza göre değil, aynı zamanda daha önce yazdıklarınıza göre de bir yanıt verir.

Bu nedenle konuşmaların tarihini bir anı olarak değerlendirebiliriz. Ancak, üretken yapay zekayı daha iyi organize edilmiş belleğe daha yakın bir şeyle donatmaya çalışan birçok kurumdaki araştırmacılara göre bu yeterli değil.

California Üniversitesi ve Microsoft işbirlikçileri tarafından bu ay yayınlanan “Augmenting Language Models with Long-Term Memory” (Uzun Süreli Bellekle Dil Modellerini Artırma) başlıklı bir makale ve arXiv’de yayınlandıdil modellerine etkili bir şekilde yeni bir bileşen ekler.


microsoft-ve-uc-santabarbara-longmem-2023


UC Santa Barbara, Microsoft

Bilgi istemi uzunluk sınırı sorunu

İlk sorun, ChatGPT ve benzeri araçların yalnızca sınırlı uzunluktaki istemleri kabul edebilmesidir. Ve bu, “uzun bilgi parçalarını işleme yeteneğinin gerekli olduğu gerçek dünya senaryolarına genelleme yapmalarını engelliyor.”

Örneğin, OpenAI’nin GPT-3’ü maksimum 2.000 belirteç, yani karakter veya kelime girdisini kabul eder. Programa örneğin 5.000 kelimelik bir makale veya 70.000 kelimelik bir roman sağlayamazsınız.

Giriş “penceresini” genişletmeye devam etmek mümkündür. Ancak bu, dikenli bir bilgisayar sorunuyla karşı karşıya gelir. “Dikkat işlemi” – yani ChatGPT ve GPT-4 dahil olmak üzere tüm ana dil programlarının temel aracı – “ikinci dereceden” bir hesaplama karmaşıklığına sahiptir (bkz. “zaman karmaşıklığıBu karmaşıklık, ChatGPT’nin yanıt üretme süresinin, girdi olarak aldığı veri miktarının karesi kadar artması anlamına gelir.

Bellek senkronizasyonu

Bu nedenle bazı araştırmacılar şimdiden ilkel bir bellek geliştirmeye çalıştılar. Google tanıtıldı Geçen sene Gelecekte yararlanabileceği önceki yanıtların bir kopyasını saklayan Ezberleyen Dönüştürücü. Bu işlem, bir seferde 65.000 jeton üzerinde çalışmasına izin verir.

Ancak Google, bu verilerin hızla güncelliğini yitirebileceğini belirtiyor. Ezberleme Dönüştürücüsünün eğitim süreci, nöral ağırlıkları veya parametreleri güncellendikçe, nöral ağ ile belleğin belirli öğelerinin senkronizasyonunu bozar.

Microsoft’un “Uzun Süreli Bellekle Artırılmış Dil Modelleri” veya LongMem adlı çözümü, iki şey yapan büyük bir geleneksel dil modeli kullanıyor. Verileri incelerken bir kısmını hafıza bankasında saklar. Ayrıca, her istemin çıktısını SideNet adı verilen ikinci bir sinir ağına iletir.

Sindirim Projesi Gutenberg, arXiv Dosya Sunucusu ve ChapterBreak

Aynı zamanda bir dil modeli olan SideNet, ilgili bir eşleşme olup olmadığını görmek için bir kişi tarafından yazılan komut istemini belleğin içeriğiyle karşılaştırmaktan sorumludur. SideNet, Memory Transformer’dan farklı olarak, ana dil modelinden bağımsız olarak kendi başına eğitilebilir. Bu sayede hafızanın güncelliğini yitirmemiş içeriklerinin belirlenmesinde giderek daha verimli hale gelmektedir.

Microsoft, LongMem’i Memorizing Transformer ve OpenAI’nin GPT-2 dil modeliyle karşılaştırmak için testler yapıyor. Ayrıca LongMem’i 175 milyar parametrede GPT-3 modeli dahil olmak üzere diğer dil modellerinden elde edilen sonuçlarla karşılaştırırlar.

Bunu yapmak için Microsoft, tüm makaleler ve kılavuzlar dahil olmak üzere çok uzun metinleri özetlemeyi içeren üç veri kümesine dayalı görevler kullanır: Project Gutenberg, arXiv dosya sunucusu ve ChapterBreak.

Yazma tekniğinin merkezinde

Size bu görevlerin büyüklüğü hakkında bir fikir vermesi için ChapterBreak, geçen yıl sunuldu Massachusetts Amherst Üniversitesi’nden Simeng Sun ve meslektaşları tarafından yazılan bu kitap, tüm kitapları alır ve bir bölümden birkaç pasajdan hangisinin bir sonraki bölümün başlangıcını işaret ettiğini doğru bir şekilde belirleyip belirlemediğini görmek için bir dil modelini test eder.

Böyle bir görev, olayların yeri ve zamanındaki değişiklikler gibi “uzun vadeli bağımlılıkların kapsamlı bir şekilde anlaşılmasını” ve “analepsi” gibi teknikler gerektirir; .

Ve bu, onlarca hatta yüzbinlerce öğenin işlenmesini içerir.

Herhangi bir LLM’nin çok uzun bilgi dizilerini depolamasına izin veren bir program

Araştırmacılar bu testleri ChapterBreak ile çalıştırdıklarında, geçen yıl baskın dil modellerinin zorlandığını bildirdiler. Örneğin, GPT-3 zamanın yalnızca %28’inde haklıydı. Ancak LongMem programı, LongMem’in 175 milyar GPT-3’ten az olmasına rağmen yalnızca yaklaşık 600 milyon nöral parametreye sahip olmasına rağmen, GPT-3 dahil tüm standart dil modellerini %40,5’lik bir puanla “şaşırtıcı bir şekilde” yendi.

Microsoft, “Bu veri kümelerindeki önemli iyileştirmeler, LONGMEM’in dil modellemeyi gelecekteki girdilere doğru güzel bir şekilde tamamlamak için önbelleğe alınmış geçmiş bağlamı anlayabildiğini gösteriyor” diye yazıyor.

Ve Microsoft’un çalışması, sosyal medya uygulaması TikTok’un ana şirketi ByteDance tarafından yapılan son araştırmayı yansıtıyor.

bir makalede Nisan ayında arXiv’de yayınlandıByteDance araştırmacısı Xinnian Liang ve meslektaşları, “Kendinden Kontrollü Bellek Sistemine Sahip Büyük Ölçekli Dil Modelleri için Sonsuz Uzunlukta Girdi Kapasitesini Serbest Bırakma” başlıklı, herhangi bir LLM’nin çok uzun bilgi dizilerini depolamasına izin veren bir program geliştirdiler.


tiktok-scm-modeli-2023

TikTok’un tescilli ByteDance’ın “kendi kendini kontrol eden bellek sistemi”, geçmiş olaylarla ilgili soruları yanıtlamak için ChatGPT’nin ötesinde herhangi bir dil modeli yeteneği sağlamak için yüzlerce diyalog ve binlerce karakterden oluşan bir veritabanından yararlanabilir. ByteDance

İstem zamanında çağrılan bir “bellek akışı”

Uygulamada, programın bir programın her yeni istemi bağlama yerleştirme yeteneğini önemli ölçüde artırabileceğini ve dolayısıyla yanıt olarak uygun ifadeler oluşturabileceğini iddia ediyorlar – ChatGPT’den bile daha iyi.

“Kendi kendini kontrol eden hafıza sistemi” veya SCM (Kendinden Kontrollü Hafıza sistemi) olarak adlandırılan sistemde, kullanıcı tarafından bilgi isteminde girilen veriler, bir hafıza denetleyicisi tarafından bir hafıza denetleyicisi tarafından değerlendirilerek, bir hafızaya girmenin gerekli olup olmadığı belirlenir. kullanıcı ve program arasındaki tüm geçmiş etkileşimleri içeren bir “bellek akışı” adı verilen arşiv bellek sistemi. Biraz Microsoft’un SideNet’i ve onunla birlikte gelen bellek bankası gibi.

Bellek gerekiyorsa, geçmiş girişlerin bu koleksiyonuna bir Pinecone gibi vektör veritabanı aracı. Kullanıcı girişi, alaka düzeyi veritabanındakilerle karşılaştırılan bir sorgudur.

Microsoft ve TikTok’un çalışması, dil modellerinin orijinal amacının bir uzantısıdır

Bazı kullanıcı sorguları bellek gerektirmez. Herhangi bir dil modelinin işleyebileceği rasgele bir istek olan “Bana bir şaka anlat” isteminde durum budur. Buna karşılık, “Geçen hafta fitness diyetleri hakkında vardığımız sonucu hatırlıyor musunuz?” geçmiş tartışma kağıtlarına erişim gerektiren türden bir sorudur.


tiktok-scm-diyalog-örnek


ByteDance

Bunu yapmak için, kullanıcının istemi ve önceki konuşmalardan kurtarılan belleği, makalenin “girdi birleştirme” dediği şeyde birleştirilir. Ve yanıtını ürettiği dil modelinin gerçek girdisi haline gelen bu birleştirilmiş metindir.

Nihai sonuç, Liang ve ekibine göre, SCM’nin yüzlerce diyalog dönüşüne atıfta bulunmayı içeren görevlerde ChatGPT’den daha iyi performans gösterebilmesidir. SCM’lerini GPT-3’ün bir versiyonuna bağladılar. metin-davinci-003ve performansını ChatGPT’ye karşı aynı girdiyle test etti.


tiktok-scm-diyalog-sohbet-başarısız


ByteDance

4.000 jeton içeren 100’den fazla turdan oluşan bir seride, adam makineden oturumun başında tartışılan kişinin hobilerini hatırlamasını istediğinde, “SCM sistemi sorguya kesin bir yanıt vererek olağanüstü bellek yetenekleri sergiliyor. ” diye yazarken, “buna karşın, görünüşe göre ChatGPT önemli miktarda alakasız tarihsel veriyle dikkati dağıtmış.”

İş aynı zamanda raporlar gibi binlerce kelimelik uzun metinleri de özetleyebilir. Bunu, metni yinelemeli olarak özetleyerek, yani ilk özeti bellek akışında depolayarak, ardından bir sonraki özeti önceki özet ile birlikte oluşturarak vb. yaparak yapar.

SCM, sohbet robotu olmayan büyük dil modellerinin de sohbet robotu gibi davranmasını sağlayabilir. “Deneysel sonuçlar, SCM sistemimizin çok turlu diyalog için optimize edilmemiş LLM’lerin ChatGPT ile karşılaştırılabilir çok turlu diyalog yetenekleri elde etmesini sağladığını gösteriyor” diye yazıyorlar.

Microsoft ve TikTok’un çalışmaları, dil modellerinin orijinal amacının bir uzantısı olarak görülebilir. ChatGPT ve öncülü Google’ın Transformer’ından önce, doğal dil görevleri genellikle yinelenen sinir ağları (RNN’ler) olarak bilinen ağlar tarafından gerçekleştiriliyordu. Tekrarlayan bir sinir ağı, mevcut girdiyle karşılaştırmak için geçmiş girdi verilerine geri dönebilen bir algoritma türüdür.

LLM belleği için hangi kullanım durumları?

Transformer ve ChatGPT gibi LLM’ler, RNN’leri daha basit bir yaklaşımla değiştirdi: dikkat. Dikkat, yazılanları otomatik olarak daha önce yazılanlarla karşılaştırır, böylece geçmiş her zaman dikkate alınır.

Bu nedenle Microsoft ve TikTok araştırması, geçmişin unsurlarını daha organize bir şekilde hatırlamak için açıkça tasarlanmış algoritmalarla dikkati genişletiyor.

Belleğin eklenmesi o kadar basit bir ince ayardır ki, gelecekte LLM’lerin standart bir yönü haline gelmesi muhtemeldir, bu da programların sohbet geçmişi gibi geçmiş öğelerle bağlantı kurabilmesini veya yaklaşabilmesini çok daha yaygın hale getirir. çok uzun eserlerin tüm metni.



genel-15

Nvidia RTX 4070 Ti GPU yakında gelebilir – ama ne pahasına?
Redmi K50 Universe, 2K ekranlı, çok hızlı şarjlı ve üst düzey kameralı ilk Redmi amiral gemisidir.
Artık Sony kameralara ihtiyacınız yok mu? Çinli akıllı telefon üreticileri OmniVision’a geçiyor: en üstteki sensör Sony IMX989’u geçecek
Yeni Razer Fortnite ekipmanı, şık bir şekilde Victory Royale kazanmanızı sağlıyor
Uzman Ayrıntıları Kötü Amaçlı Yazılımların Gatekeeper Güvenliğini Atlamasına İzin Verebilecek macOS Hatası
ETİKETLENDİ:#microsoft#TiktokbelleğiüretkenVeriyor
Bu Makaleyi Paylaş
Facebook Bağlantıyı Kopyala Yazdır
Paylaş
Önceki Makale BT uzmanlarının Rusya’ya dönüş nedenleri şöyle adlandırılıyor: bu, barınma ve maaşların maliyeti
Sonraki Makale Hindistan, Cuma günkü ay görevi ile özel kulübe katılmayı hedefliyor

Sanal Medya

FacebookBeğen
452Takip Et
PinterestSabitle
237Takip Et

Son Eklenenler

Switch 2 Avrupa’da Tüketici Dostu Bir Yenilikle Geliyor
Oyun
Brian Chesky’den Yeni Bir Yapay Zeka Laboratuvarı Müjdesi
Genel
Valve yaz sezonunda Steam Machine’i piyasaya sürmeye hazır
Liste
Acil: Windows için Hola Tarayıcısı Kripto Madenciliği için Tehdit Altında
Siber Güvenlik
IPO öncesi Anthropic’in Daniela Amodei, AI’a ilişkin kaygıları aşıyor
Yapay Zeka
Kullanıcı Değiştirebilir Bataryalı Nintendo Switch 2 Avrupa’ya Geliyor
Donanım
//

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

  • Hakkımızda
  • Gizlilik politikası
  • Tanıtım Yazısı ve Backlink Hizmeti

Kategoriler

  • Teknoloji
  • Oyun
  • Sinema
  • Siber Güvenlik
  • Bilim
  • Finans
  • Dünyadan Güncel Haberler

Populer

  • TV'de Ücretsiz İzlenebilen Şifresiz Erotik Kanallar (2025 Güncel Frekans Listesi)

  • The Last of Us PC Kontrolleri: Hızlı Silah Değiştirme ve Tüm Tuşlar (2025)

  • Hogwarts Legacy'de Odaklanma İksiri Nasıl Yapılır?

Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor HaberleriTeknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film | Spor Haberleri
Bizi Takip Et
© 2026 Teknomers. All Rights Reserved.
Welcome Back!

Sign in to your account

Kullanıcı Adı veya E-posta Adresi
Şifre

Şifrenizi mi unuttunuz?