Çok modlu yapay zekada videonun güçlü rolü

Multimodal AI aynı anda metin, ses, fotoğraf ve videoyu birleştirir. (Açık olmak gerekirse, “metin” bilgisini doğrudan ses, fotoğraf veya videodan alabilir. Gördüğü kelimeleri “okuyabilir” veya çıkarabilir, ardından bu metni karışıma girebilir.)

Videolu çok modlu yapay zeka, kullanıcı-bilgisayar arayüzünü insan deneyimine büyük ölçüde yaklaştırıyor. Yapay zeka düşünemez veya anlayamasa da, video ve diğer girdilerden yararlanabilmek (aynı zamanda multimodal olan) insanları fiziksel çevre veya farkındalık konusu hakkında aynı fikirde bir araya getirir.

Örneğin, Google I/O açılış konuşması sırasında, Google Deepmind genel merkezindeki mühendisler, (OpenAI’nin yeni modelinde olduğu gibi) bilgisayar ekranınızdakileri okuyabilen, görebilen ve “izleyebilen” Astra projesiyle birlikte bunu izliyorlardı. Yayınladılar bu video X’te, bir mühendisin ekrandaki video hakkında AI ile sohbet ettiğini gösteriyor.

Ortaya çıkan bir başka eğlenceli demo, GPT-4o’yu çalışırken gösterdi. İçinde o videoOpenAI mühendislerinden biri, GPT-4o çalıştıran bir akıllı telefon ve onun kamerasını kullanarak, başka bir GPT-4o akıllı telefondaki başka bir örneğin yorumlarına ve sorularına dayanarak gördüklerini açıklıyor.

Her iki demoda da telefonlar başka bir kişinin yapabileceği şeyi yapıyor; bir kişiyle birlikte dolaşmak ve onun fiziksel dünyadaki nesneler, insanlar ve bilgiler hakkındaki sorularını yanıtlamak.

Reklamverenler, reklamlarının duygusal etkisini kaydetmenin bir yolu olarak çok modlu yapay zekaya sahip videolara bakıyor. “Duygular, gerçek dünyayı bir cep telefonu kamerasının merceğinden işleyebilen Project Astra gibi teknoloji aracılığıyla ortaya çıkıyor. Gördüğü görüntüleri ve bilgileri sürekli olarak işler ve nesnenin yanından geçtikten sonra bile yanıt verebilir.” Laurie Sullivan’ın MediaPost hakkında bir görüş yazısı.





genel-13