Çoklu görünüm, iki farklı sinyali, farklılıklarına rağmen aynı nesne hakkında paylaştıkları bilgileri dikkate alarak ilişkilendirmenin bir yoludur. Çoklu görme, dünyanın yapısına dair daha zengin bir anlayışa sahip olan makinelerin önünü açabilir, belki de “akıl yürütme” ve “planlama” yeteneğine sahip makinelerin hedefine katkıda bulunabilir. / Tiernan Ray ve DALL*E, “Bir elmanın birden fazla görünümünün çerçeveli portreleri”

Yapay zekanın en iyi hali (ChatGPT veya proteinleri tahmin etmek için DeepMind’in AlphaFold’u gibi yapay zekalar) artık dar bir boyutta sıkışıp kalmış durumda. Yapay zeka her şeyi yalnızca tek bir şekilde, bir kelime, bir görüntü, uzaydaki bir koordinat veya herhangi bir veri türü olarak görüyor. Ama yalnızca bir tarafta.

Ve bu değişecek.

Çok yakın gelecekte sinir ağları, yapay zekanın birçok açıdan görülebilmesini sağlayacak veri formlarının birleştirilmesi yoluyla çarpıcı biçimde genişleyecek. Bu önemli bir gelişme çünkü sinir ağlarına dünyanın tutarlılığını anlamak için daha güçlü bir temel sağlayabilir. Belirli öğelerin nasıl bir arada tutulduğunu anlamak için ne yapmalı? Ve bu, bir gün “akıl yürütme” ve “planlama” yapabilecek bilgisayar programlarının oluşturulmasında önemli bir adım olmalıdır.

Dünyada incelemeye çalıştığımız her şey aynı anda birçok yön sunuyor

Yaklaşan çok taraflı veri dalgasının kökeni, makine öğrenimi konusunda uzmanlaşmış bilim adamlarının yıllarca süren çalışmalarına dayanıyor. Buna “çoklu görünüm” veya “veri füzyonu” denir. Bu konuya adanmış bir akademik dergi bile var. Bilgi BirleşmesiAkademik yayıncılık devi Elsevier tarafından yayınlandı.

Veri füzyonunun temel fikri, dünyada incelemeye çalışılan her şeyin aynı anda birkaç yönünün olmasıdır. Örneğin bir web sayfasında hem çıplak gözle gördüğümüz metin hem de o sayfaya bağlantı veren bağlantı metni, hatta üçüncü bir öğe, sayfanın yapısını oluşturan altta yatan HTML ve CSS kodu bulunur.

Bir kişinin resminde hem kişinin adı için bir etiket hem de resim pikselleri bulunabilir. Bir video, bir video görüntüsünün yanı sıra bu görüntüye eşlik eden ses klibi de içerir.

Mevcut yapay zeka programları, verileri aralarında hiçbir bağlantı olmayan ayrı bilgi parçaları olarak ele alıyor

Mevcut yapay zeka programları bu verileri aralarında herhangi bir bağlantı olmaksızın ayrı bir bilgi parçası olarak ele alıyor. Sinir ağları, metin ve ses gibi birden fazla veri türünü işlediğinde bile, bu veri kümelerini aynı anda işlerler; farklı veri türlerini aynı nesnenin görünümleri olarak açıkça birbirine bağlamazlar.

Araştırmalar bu noktada ilerlemektedir. Facebook, Instagram ve WhatsApp’ın sahibi Meta, geçtiğimiz Salı günü, birden fazla veri yönteminin kullanımına yönelik bir güç gösterisi olan en son makine çevirisi çalışmasını açıkladı. SeamlessM4T programı aynı anda ses ve metin verileri üzerinde eğitilir ve herhangi bir görev için hem metin hem de ses üretebilir.

Ve SeamlessM4T, her sinyalin her birimini aynı nesnenin bir yönü olarak algılamaz.

Sinir ağlarını zenginleştirmek için çoklu görünümü kullanın

Dolayısıyla olaylara dair bu parçalı bakış açısı değişmeye başlıyor. New York Üniversitesi Profesörü Ravid Shwartz-Ziv ve Meta Baş Bilim Adamı Yann LeCun tarafından yakın zamanda yayınlanan bir makalede ikili, nesneleri birden çok açıdan temsil ederek derin öğrenmenin sinir ağlarını zenginleştirmek için çoklu görünümü kullanma hedefini tartışıyor.


dall-e-2023-08-24-22-44-14-bir-elma-zarif-yaldızlı-çerçeveli-büyük-kare-aynadaki-yansımasına-bakıyor.png


Bugünün derin sinir ağlarında nesneler ilgisiz sinyallere bölünüyor. Görüntüleri, sesleri, metinleri, dağılım grafiklerini, grafik ağlarını ve diğer birçok sinyal türünü kullanacak bir sonraki çok modluluk dalgası, nesnelerin yapısına ilişkin daha zengin bir modele izin verebilir. / Tiernan Ray ve DALL*E, “Zarif altın çerçeveli büyük kare aynadaki yansımasına bakan bir elma”.

Son derece teknik ve oldukça teorik makalede Nisan ayında arXiv ön baskı sunucusunda yayınlandıShwartz-Ziv ve LeCun, “derin öğrenmenin çeşitli uygulama alanlarındaki başarısının, umut verici sonuçlar veren çok görüşlü derin öğrenme yöntemlerine olan ilginin artmasına yol açtığını” yazıyor.

Günümüzün gittikçe genişleyen sinir ağları (örneğin SeamlessM4T) giderek daha fazla yöntemi, yani “multimodal” yapay zekayı desteklediğinden, çoklu görüntüleme bir dönüm noktasına doğru ilerliyor.

Karşılıklı bilgi içeren görüşler ve dolayısıyla dünyayı anlama konusunda çok zengin bir yaklaşım

Üretken yapay zekanın geleceği, ChatGPT ve Stable Diffusion gibi programlar, yalnızca metin, görseller ve video değil, aynı zamanda dağılım grafikleri ve grafikleri, bilgiyi, hatta biyoinformatik verileri ve diğer birçok yöntemi de içeren çok sayıda yöntemi tek bir programda birleştirecek. Bir sahnenin veya nesnenin görünümleri.

Pek çok farklı yöntem, potansiyel olarak nesnelere ilişkin binlerce “görüş”, karşılıklı bilgi içerebilecek görüşler sunar ve bu, dünyayı anlamak için çok zengin bir yaklaşım olabilir. Ama bu aynı zamanda sorunları da beraberinde getiriyor.

Derin sinir ağlarında çoklu görüşün anahtarı, Shwartz-Ziv ve diğerlerinin “bilgi darboğazı” adını verdiği bir kavramdır. Yöntem sayısı arttıkça bilgi darboğazı sorun haline gelir.


ve-gökyüzü-vb-kırpılmış


Bilgi darboğazı makine öğreniminde önemli bir kavramdır. Derin bir ağın gizli katmanlarında, girişin yeniden yapılandırılması, yani bir sıkıştırma ve açma biçimi oluşturmak için ağ girişinin en temel öğelere indirgenmesi fikri vardır. / Tiernan Ray ve DALL*E, “cam şişe yan yatmış, yandan görünüm” + “birkaç elma” + “yeşil elma” + “ve şişenin sağında başka bir yeşil yarı saydam cam elma var”.

Bilgi darboğazı sorunu

Bir bilgi darboğazında, birden fazla giriş, aynı nesnenin farklı görünümleri olarak girişler tarafından paylaşılan belirgin ayrıntıları ortaya çıkaran bir “temsil” halinde birleştirilir. İkinci adımda bu gösterim, bu nesneye karşılık gelen bir çıktıyı tahmin etmek için gerekli olan girdinin yalnızca temel öğelerini içeren sıkıştırılmış bir forma indirgenir. Karşılıklı bilgi biriktirme, ardından gerekli olmayan her şeyi ortadan kaldırma veya sıkıştırma süreci, bilgi darboğazıdır.

Büyük çok modlu ağlarda çoklu görünümün zorluğu, devasa bir sinir ağının tüm bu farklı yöntemlerle gerçekleştireceği birçok görev için tüm farklı görünümlerden hangi bilgilerin gerekli olduğunu bilmektir.

Örnek olarak, ChatGPT gibi metin cümleleri üreten bir metin görevi gerçekleştiren bir sinir ağı, örneğin görüntü üretmesi gerektiğinde de bozulabilir; eğer ikinci görevle ilgili ayrıntılar sıkıştırma adımı sırasında kaldırılmışsa. .

“Çoklu Görünüm Hipotezinin İkiden Fazla Görünümü İçerecek Şekilde Genişletilmesi”

Shwartz-Ziv ve LeCun’un yazdığı gibi, “Bilgiyi ilgili ve alakasız bileşenlere ayırmak zorlaşıyor ve çoğu zaman düşük performansa yol açıyor.”

Araştırmacılar, bu sorunun henüz net bir cevabının bulunmadığını söylüyor. Araştırmanın sürdürülmesi, özellikle de bir nesnenin yalnızca iki farklı görüşünü içeren, ancak birkaçını da içerebilen çoklu görüş kavramını yeniden tanımlayarak gerekli olacaktır.

“Bu hedefin başarılı olmasını sağlamak için, çoklu görünüm varsayımını ikiden fazla görünümü kapsayacak şekilde genişletmemiz gerekiyor” diye yazıyorlar. Özellikle, geleneksel çoklu görünüm yaklaşımının “ilgili bilgilerin tüm farklı görünümler ve görevler arasında paylaşıldığını ve bunun çok kısıtlayıcı olabileceğini” varsaydığını ekliyorlar. Görünümler yalnızca belirli bağlamlarda belirli bilgileri paylaşabilir.

“Bu nedenle, bu naif çözümün daha rafine bir versiyonunu tanımlamanın ve analiz etmenin önemli olduğu sonucuna varıyorlar”.

Çoklu modalitenin yükselişinin çoklu görme bilimini yeni çözümler tasarlamaya iteceğine şüphe yok. Uygulamada çoklu modalitenin patlaması, yapay zeka için yeni teorik atılımlara yol açacaktır.


Kaynak : “ZDNet.com”



genel-15