Microsoft, görsel verileri aynı anda işleyebilen, metin ve fiziksel nesneleri yönetebilen Magma yapay zeka modelini tanıttı. Geliştirme, Microsoft, Kaist, Maryland Üniversitesi, Wisconsin-Madison Üniversitesi ve Washington Üniversitesi’nden araştırmacıların ortak çabalarının sonucuydu.
Magma, algı ve kontrol için bireysel modelleri kullanan Microsoft’tan Robotics için Google’dan Palm-E ve RT-2 veya ChatGPT gibi mevcut sistemlerin aksine, Magma bu yetenekleri tek bir temelde birleştiriyor. Sistem sadece multimodal verileri analiz etmekle kalmaz, aynı zamanda kullanıcı arayüzü veya fiziksel nesnelerle manipülasyonlar tarafından navigasyon olsun, kendi temellerine de kendi başlarına hareket edebilir.
Model iki temel bileşene dayanmaktadır. İşaretin ilk seti, etkileşimli öğelere sayısal işaretler atayarak etkileşime girebileceğiniz nesneleri tanımlar. Mark-Mark-Trace-Video tabanlı hareket diyagramlarını inceliyor. Bu sayede Magma, arayüzler veya robotik manipülatörlerin yönetimi ile navigasyon gibi görevleri yerine getirebilir.
Microsoft’a göre, Magma-8B modeli test testlerinde etkileyici sonuçlar gösteriyor. Özellikle, VQAV2 testinde 80.0 puan kazandı (görsel soru cevaplama) – sistemin görsel bilgilerin anlaşılmasının önemli bir göstergesi olan görüntülerin içeriği hakkında soruları cevaplaması gereken standart bir test. Modelin görüntülerde ortak nesnelerin varlığını veya yokluğunu doğru bir şekilde belirleme yeteneğini kontrol eden Test Papa’da (ortak ortamdaki popüler nesne), sistem 87.4 sonucuna ulaştı ve karşılaştırılan modeller arasında lider oldu. Bu tür göstergeler, GPT-4V’nin (VQAV2’de 77.2 puan) olanaklarından daha üstün görsel algı ve analizin yüksek doğruluğunu gösterir, ancak bazı testlerde magma hala diğer sistemlerden daha düşüktür, örneğin llava-next (VQV2’de 81.8 puan (81.8 puan) ).
Magma Projesi Jianvei Yan’ın araştırmacısı, adın Microsoft (Rese) A (RCH) ‘de M (Ultimodal) Ag (Entik) M (ODEL) olarak deşifre edildiğini açıkladı.
Microsoft, GitHub’da Magma için bir kod yayınlamayı planlıyor ve bu da araştırmacıların bu teknolojiyi geliştirmesine izin verecek. Umut verici sonuçlara rağmen, sistem hala çalışmanın devam ettiği karmaşık çok aşamalı karar verme süreçlerinde kısıtlamalara sahiptir.
Magmanın ortaya çıkışı yapay zeka modellerinin hızlı gelişimini yansıtır, bugün AI’nın gelişiminin askıya alınması çağrısına neden olmayan standart bir araştırma yönüdür.


