Yeni bir araştırma makalesi Meta ve Oxford Üniversitesi bilim insanları tarafından ölçeklenebilir 3B modeller üretmek için güçlü bir AI odaklı teknik özetlenmiştir. VFusion3D, AI eğitimi ve içerik üretimi için 3B verilerinin yetersizliğini ele alır. Bu nedenle, mevcut 3B modelleri kullanmak yerine, VFusion3D metin, resim ve videolar üzerinde eğitilir.
Araştırmacılar, VFusion3D’nin “saniyeler içinde tek bir görüntüden 3B bir varlık üretebileceğini” ve yüksek kaliteli ve sadık sonuçlar sergilediğini iddia ediyor. Bu ölçeklenebilir 3B modeller yeterliyse, oyun, VR ve tasarım sektörlerinde çok fazla işten tasarruf sağlayabilirler.
Junlin Han, Filippos Kokkinos ve Philip Torr liderliğindeki araştırma ekibi, yukarıdaki diyagramın temsil ettiği gibi VFusion3D için tasarladıkları boru hattını açıklıyor. Boru hattı, bir video difüzyon modelini ince ayarlamak için kullanılan az miktarda 3B veri içeriyor. Videolar, genellikle bir nesnenin çeşitli açılarını gösterdikleri için bu boru hattı için harika kaynaklardır ve bu, sadık 3B reprodüksiyonlarda etkili olabilir.
Araştırmacılar, nesnelerin panoramik çekimleri ve drone görüntüleri de dahil olmak üzere çeşitli videolarla eğitildiği için EMU Video adlı bir video modeli seçtiler. Dedikleri gibi, bu tür video kaynakları “doğası gereği 3B dünya hakkında ipuçları içerir.” Sonuç, görüntüleme açısından bağımsız olarak “tek bir görüntüden yüksek kaliteli 3B varlıklar üretebildiği” iddia edilen VFusion3D’dir. Bir kullanıcı çalışması bu iddiaları desteklemektedir.
Bilim insanları yeni modellerini test etmenin yanı sıra, onu rakip damıtma tabanlı ve ileri beslemeli 3B üretici modellerle karşılaştırdılar. Sonuçta, bu görevi hedefleyen ilk araç bu değil. Meta’dan Junlin Han, GitHub proje sayfasında VFusion3D’nin karşılaştırmalı kalitesini ve performansını vurguluyor. Aynı yerde, VFusion3D ve rakiplerinden animasyonlu nesnelerin bir seçiminin keyfini çıkarabilirsiniz – kaynak (giriş) görüntüsüyle karşılaştırılmıştır. Galeride birkaç karşılaştırma yer almaktadır.
Okuyucular VFusion3D’yi test etmekle ilgileniyorsa, çevrimiçi bir demo mevcuttur. İçinde, örnek resimlerden birinden bir 3B model oluşturabilir ve indirebilir veya hatta kaynağınızı yükleyebilirsiniz. Bu demo, yazıldığı sırada “meşgul” olduğu için yanıt vermiyordu.