Apple araştırmacıları, çok modlu bir yapay zeka (AI) büyük dil modeli (LLM) oluşturmaya yönelik çalışmalarını bir ön baskı makalesinde paylaştılar. 14 Mart’ta çevrimiçi bir portalda yayınlanan makale, çok modluluğun gelişmiş yeteneklerini nasıl elde edebildiğini ve temel modelin hem salt metin verileri hem de görüntüler üzerinde eğitilmesini nasıl başardığını vurguluyor. Cupertino merkezli teknoloji devi için yapay zekadaki yeni gelişmeler, CEO Tim Cook’un şirketin kazanç görüşmelerinde yaptığı ve yapay zeka özelliklerinin bu yılın sonlarında gelebileceğini söylediği açıklamaların ardından geldi.

Ön baskı versiyonu Araştırma kağıdı bilimsel makalelerin açık erişimli çevrimiçi deposu olan arXiv’de yayınlandı. Ancak burada yayınlanan makaleler hakemli değildir. Makalenin kendisinde Apple’dan bahsedilmese de adı geçen araştırmacıların çoğu şirketin makine öğrenimi (ML) bölümüyle bağlantılı, bu da projenin aynı zamanda iPhone üreticisiyle de bağlantılı olduğu inancına yol açıyor.

Araştırmacılara göre, 30 milyara kadar parametre içeren çok modlu modellerden oluşan bir aile olan MM1 üzerinde çalışıyorlar. Bunu “performanslı çok modlu LLM (MLLM)” olarak adlandıran makalenin yazarları, görüntü kodlayıcıların, görüntü dili bağlayıcısının ve diğer mimari bileşenlerin ve veri seçimlerinin, hem metni hem de metni anlayabilen yapay zeka modelini oluşturmak için yapıldığını vurguladı. görüntü tabanlı girişler

Makalede bir örnek vererek şöyle denildi: “Görüntü altyazısı, serpiştirilmiş görüntü metni ve salt metin verilerinin dikkatli bir karışımının kullanılmasının büyük ölçekli çok modlu ön eğitim için en son teknolojiye ulaşmak için çok önemli olduğunu gösteriyoruz.” (SOTA) yayınlanan diğer eğitim öncesi sonuçlarla karşılaştırıldığında birden fazla kıyaslamada az sayıda sonuç elde edildi.”

Özetlemek gerekirse, AI modeli şu anda eğitim öncesi aşamadadır, bu da istenen çıktıları verecek kadar eğitilmediği anlamına gelir. Bu, modelin iş akışını ve sonuçta verileri nasıl işlediğini tasarlamak için algoritmanın ve yapay zeka mimarisinin kullanıldığı aşamadır. Apple araştırmacılarından oluşan ekip, görüntü kodlayıcıları ve görüntü dili bağlayıcısını kullanarak modele bilgisayarlı görüntü eklemeyi başardı. Daha sonra ekip, yalnızca görseller, görseller, metinler ve salt metinden oluşan veri setinden oluşan bir karışımla test yaparken, sonuçların aynı aşamada mevcut modellerle karşılaştırıldığında rekabetçi olduğunu buldu.

Bu atılım önemli olsa da bu araştırma makalesi, Apple’ın işletim sistemine çok modlu bir yapay zeka sohbet robotunun ekleneceğini tespit etmek için yeterli değil. Bu aşamada yapay zeka modelinin girdi alırken veya çıktı verirken multimodal olup olmadığını (AI görüntüleri üretip üretemediğini) söylemek bile zor. Ancak hakem incelemesinden sonra sonuçların tutarlı olduğu doğrulanırsa teknoloji devinin yerel, üretken bir yapay zeka temel modeli oluşturma yolunda büyük bir adım daha attığı söylenebilir.


Bağlı kuruluş bağlantıları otomatik olarak oluşturulabilir; ayrıntılar için etik bildirimimize bakın.



genel-8