BYTEDANCE, fotoğrafları en gerçekçi videolara dönüştüren bir yapay zeka sistemi geliştirdi.
Omnihuman adı verilen yeni bir sistem, insanların konuşmaya uygun olarak hareket ettiği ve hareket ettiği ve sadece yüzleri veya üst bedeni aşırıya kaçabilecek önceki yapay zeka modellerini aşan tam uzunlukta videolar üretir.
Bytedank, “Son yıllarda insan animasyonu aracılığıyla belirgin gelişmeler geçirdi” dedi. “Bununla birlikte, mevcut yöntemlerin gerçek uygulamalardaki potansiyellerini sınırlayan büyük genel video üretim modelleri olarak ölçeklendirmek hala zor.”
Ekip, Omnihuman’ı çeşitli girdi verilerini birleştiren yeni bir yaklaşım kullanarak 18.700 saatten fazla insan video verisi ile eğitildi – metin, ses ve vücut hareketi. “Evrensel koşullar” öğretimi için bu strateji, AI’nın önceki yöntemlerden çok daha büyük ve daha çeşitli veri kümeleri üzerinde çalışmasını sağlar.
Araştırma Grubu, “Ana fikrimiz, öğrenme sürecine metin, ses ve poz gibi çoklu klima sinyallerinin dahil edilmesinin veri kaybını önemli ölçüde azaltabileceğidir” dedi.
https://www.youtube.com/watch?v=z8pxnnogc9w&playerid=4931
Test sırasında, Omnihuman mevcut sistemleri bir kerede birkaç kalite göstergesiyle aştı. Bu bağlantıda çok sayıda örnek bulunabilir.
https://www.youtube.com/watch?v=n6hkcs2pj0q&playerid=4931
https://www.youtube.com/watch?v=k7d3c8zlqpm
Daha önce, Çinli teknoloji şirketi Alibaba, şirket temsilcilerine göre, çok takdir edilen Deepseek-V3 modelini aşan yapay zeka Qwen 2.5-Max modelinin yeni bir versiyonunu yayınladı. Ve Deepseek, en son Janus-Pro-7B AI modelinin lansmanını duyurdu.

