Tencent, statik bir fotoğraf kullanarak 3D nesneleri oluşturabilen, InstantMesh adlı yeni bir yapay zeka (AI) modelini yayınladı. Yeni AI modeli, şirketin eski Instant3D çerçevesinin bir yükseltmesidir ve artık büyük yeniden yapılandırma modeli (LRM) mimarisini temel alan çoklu görüntülü yayılma modeli ile seyrek görüntülü yeniden yapılandırma modelinin bir kombinasyonunu kullanıyor. Tencent ayrıca InstantMesh modelini açık kaynak haline getirdi ve meraklıların yeteneklerini test etmeleri veya 3D görüntüler oluşturup dışa aktarmaları için bir önizleme uygulaması sundu.

Şirket araştırmasının ön baskı versiyonunu yayınladı kağıt arXiv’de. Özellikle arXiv akran değerlendirmeleri yapmadığından modelin değerlendirilip değerlendirilmediğini söylemek zordur. Ancak şirket, geliştiricilerin verimliliğini test edebilmesi için yapay zeka modelini Hugging Face’te açık kaynak olarak kullanıma sundu. Meraklıları için bir de var uygulama görünümü ayrıca bir fotoğraf ekleyip bunun 3D render’a dönüşmesini izleyebilecekleri bir yer de mevcut. Biz Gadgets 360 olarak platformu test ettik ve şirketin iddia ettiği gibi görsellerin 10 saniyeden kısa sürede oluşturulduğunu gördük. Ancak renderların kalitesi oldukça düşük kalitede hissettirdi. Bir X (eski adıyla X) kullanıcısı, AI modelinin kullanımına ilişkin bir video yayınladı ve sonuçları aşağıda görebilirsiniz.

Yapay zeka modelinin arkasındaki teknolojiye gelince, şirket iki farklı mimari kullanıyor: çoklu görüntülü dağıtım modeli ve LRM mimarisi. İlki, görüntünün girdi olarak işlenmesine yardımcı olur ve görüntüde görünmeyen farklı boyutlar üretir ve LRM, 3 boyutlu bir ortamda deneyimlenebilecek bir yörüngesel görünüm nesnesi oluşturur.

Tencent’e göre InstantMesh, 3D görüntüleme dünyasındaki Janus sorununu çözüyor. Janus sorunu, modelin referans nesnenin farklı taraflarını “hayal etmesi” ve bunları yaratması gerektiğinden, birleşik bir 3B nesne yerine nesnenin birden fazla kanonik görünümünü oluşturduğu, 3B oluşturma alanındaki bir olgudur. Şirket bu sorunu Stable Diffusion’dan ince ayarlı yeni bir görüntü oluşturucu kullanarak çözüyor.

Araştırma makalesi ayrıca yakın zamanda piyasaya sürülen Stability AI’nin Stable Video 3D’si de dahil olmak üzere mevcut farklı modellerle karşılaştırmalı kıyaslama puanlarını da paylaştı. Puanlara göre InstantMesh, Google Taranan Nesneler (GSO) ve OmniObject3D (Omni3D) yörünge görünümlerinde SV3D’den daha iyi performans gösterdi. SV3D, Omni3D değerlendirmesinde çıktının çözünürlüğüne karşılık gelen birkaç parametrede daha iyi performans gösterdi ancak Tencent bunun kasıtlı olduğunu söyledi. Şirket, “‘Gerçek yeni görüşlerin’ bilinmemesi ve referans olarak tek bir görüntü verildiğinde birden fazla olasılığa sahip olması gerektiğinden, algısal kalitenin sadakatten daha önemli olduğunu savunuyoruz” diye açıkladı.


Bağlı kuruluş bağlantıları otomatik olarak oluşturulabilir; ayrıntılar için etik bildirimimize bakın.





genel-8