
Microsoft araştırmacıları Çarşamba günü aracı işlevleri gerçekleştirebilecek yeni bir vakıf modeli duyurdu. Magma olarak adlandırılan yapay zeka (AI) modeli, metin, görüntüler, videolar ve mekansal formatlar arasında büyük miktarda veri kümesi üzerinde önceden eğitilmiştir. Redmond merkezli teknoloji devi, Magma’nın görme dili (VL) modellerinin bir uzantısı olduğunu ve sadece multimodal bilgileri anlamakla kalmayıp aynı zamanda bunları planlayabileceğini ve harekete geçebileceğini söyledi. AI aracı özellikli model, bilgisayar görme, kullanıcı arayüzü (UI) navigasyonu ve robot manipülasyonu dahil olmak üzere çok çeşitli görevlerde kullanılabilir.
Microsoft Magma Vakfı Modelini Duyurdu
Bir gitithub postalamakMicrosoft araştırmacıları yeni Magma Vakfı modelini detaylandırdı. Temel modelleri, sıfırdan üretilen ve başka bir modelden damıtılmayan farklı büyük dil modelleridir (LLMS). Serideki diğer modellerin temel çizgisi haline gelirler. Magma, AI modelinin çok çeşitli veri kümelerinde önceden eğitilmiş olması anlamında benzersizdir.
Araştırmacılar, Magma’nın arkasındaki temel mimarinin Lama 3 AI modeli olduğunu belirtti. Bununla birlikte, Magma ayrıca görsel-mekansal dünyada planlama ve hareket etme yeteneği ile donatılmıştır. Bu, modelin sadece bir chatbot gibi çıktılar oluşturmakla kalmayıp aynı zamanda eylemleri de yürütmesini sağlar.
Kamera sensörleri ile eşleştirildiğinde görüntülediği dünya hakkında bilgi sunabilen bir bilgisayar görme chatbot olarak kullanılabilir. Magma, bir cihazın kullanıcı arayüzünü kontrol etmek için de kullanılabilir. Ancak daha ilginç bir şekilde, ajan yeteneklerini kullanarak karmaşık görevleri tamamlamak için robotları da kontrol edebilir.
Araştırmacılar, bu yeteneklerin arkasındaki önemli bir nedenin iki teknik bileşenle birlikte çeşitli veri kümesi olduğunu söyledi-işaret seti ve işaret izi. Birincisi, modelin görüntü alanında düğmeler veya robot kolları için sayısal işaretleri öngörmesini sağlayarak görüntülerde, videolarda ve mekansal verilerde eylem topraklamasını sağlar. İkincisi, model zamansal video dinamiklerini besler ve harekete geçmeden önce bir sonraki çerçeveleri tahmin etmesini sağlar. Bu, modelin güçlü bir mekansal anlayış geliştirmesini sağlar.
Microsoft araştırmacıları ayrıca dahili testlere dayanan AI modelinin kıyaslama puanlarını da paylaştı. Openai, Alibaba ve Google’ın modellerinden daha iyi performans gösteren tüm ajan değerlendirme testlerinde rekabetçi puanlar elde etmiştir. Şirket şu andan itibaren kamu malı magma yayınlamadı.

