Nvidia araştırmacıları Pazartesi günü, bir görüntüdeki nesnelerin yerini değiştirebilen yeni bir yapay zeka (AI) modelini tanıttı. DiffUHaul olarak adlandırılan araç, görüntünün arka planını veya şeklini etkilemeden bir nesneyi bir yerden diğerine taşımak için görüntünün bağlamını mekansal olarak anlayabilir. Bu tekniğin benzersiz yönü eğitim gerektirmemesidir, yani bu aracı oluşturmak için hiçbir eğitim öncesi veri kullanılmamıştır. Yeni teknoloji, şirket tarafından Bilgisayar Grafikleri ve Etkileşimli Teknikler Özel İlgi Grubu (SIGGRAPH) Asya 2024 konferansında tanıtıldı.
Bir araştırmada kağıtNvidia araştırmacıları yeni yapay zeka aracının ayrıntılarını açıkladı. Teknoloji, Kudüs İbrani Üniversitesi, Tel Aviv Üniversitesi ve Reichman Üniversitesi ile işbirliği içinde geliştirildi. Yeni araçla araştırmacılar, yapay zeka görüntü oluşturma modellerinde öne çıkan bir sorunu, bir görüntüdeki nesnelerin mekansal farkındalıkla yeniden konumlandırılması sorununu çözmeyi hedeflediler.
Makale, bu özel düzenleme görevinin, yapay zeka modellerinin mekansal akıl yürütmeden yoksun olması nedeniyle yapay zeka bilim insanları için bir darboğaz olarak kaldığını vurguluyor. Mevcut görsel modeller bir görüntünün bağlamını anlayabilir ancak 2 boyutlu bir ortamdaki bir hareketin mekansal olarak nasıl algılanacağını anlamadıkları için nesneleri hareket ettiremezler.
Nvidia, DiffUHaul ile bu sorunun çözülebileceğini iddia ediyor. Görüntü yayma mimarisini temel alan araç, gürültü giderme adımında dikkat maskelemeyi kullanır. Bu, üst düzey nesne görünümünü korumak için yapılır. Yapay zeka aracı, mekansal anlayışı yapay zeka aracına entegre eden yeni bir teknik olan BlobGEN’i kullanıyor. Ayrıca, belirlenen yerde lokalize model ile gerçek görüntülerin yeniden oluşturulması için yeni teknikler kullanıldı.
Ön uçta kullanıcılar, değiştirilmesini istedikleri nesneyi vurgulayan bir metin istemi yazabilecek ve yapay zeka, arka planı buna göre ayarlarken nesneyi mekansal olarak yeniden ayarlayabilecek. Şirketin gösterdiği gösterilerde yapay zeka düzenleme aracının mekansal hareketle gelen şekil değişikliklerini anlayıp anlayamadığı belirlenemedi. Örneğin havadaki bir balon yere doğru hareket ettirildiğinde şekli de değişir. Ancak yapay zeka, eğitim eksikliği nedeniyle bunu yakalayamayabilir.