Yapay zeka tarafından oluşturulan video zaten bir gerçek ve şimdi başka bir oyuncu da bu mücadeleye katıldı: Microsoft. Görünüşe göre teknoloji devi, tek bir resimden ve bir ses klibinden gerçekçi konuşan avatarlar oluşturabilen üretken bir yapay zeka sistemi geliştirdi. Araç, VASA-1 olarak adlandırılıyor ve ağız hareketini taklit etmenin ötesine geçiyor; gerçekçi duyguları yakalayabilir ve aynı zamanda doğal görünümlü hareketler üretebilir.
Sistem, kullanıcıya kişinin göz hareketlerini, kişinin algılandığı mesafeyi ve ifade edilen duyguları değiştirme yeteneği sunuyor. VASA-1, bir dizi yapay zeka aracı olduğu söylenenlerin ilk modelidir ve MSPowerUser raporları belirli yüz ifadelerini canlandırabiliyor, dudak hareketlerini yüksek derecede senkronize edebiliyor ve insan benzeri kafa hareketleri üretebiliyor.
Aralarından seçim yapabileceğiniz geniş bir duygu yelpazesi sunabilir ve yüz incelikleri oluşturabilir; bu da korkutucu derecede ikna edici bir sonuç verebilir gibi görünüyor.
VASA-1 nasıl çalışır ve neler yapabilir?
Görünüşe göre insan 3D animatörlerinin ve modelleyicilerinin nasıl çalıştığından not alan VASA-1, sistemin yüz ifadelerini, 3D kafa pozisyonunu ve yüz özelliklerini birbirinden bağımsız olarak kontrol etmesine ve düzenlemesine olanak tanıyan ‘çözme’ adı verilen bir süreçten yararlanıyor. ve VASA-1’in gerçekçiliğini güçlendiren şey de budur.
Zaten hayal edebileceğiniz gibi, bunun sarsıcı bir potansiyeli var ve dijital uygulama ve arayüz deneyimlerimizi tamamen değiştirme olanağı sunuyor. MSPowerUser’a göre VASA-1, eğitildiğinden farklı videolar üretebiliyor. Görünüşe göre sistem sanatsal fotoğraflar, şarkı söyleyen sesler veya İngilizce olmayan konuşmalar konusunda eğitilmemişti, ancak bunlardan birini içeren bir video talep ederseniz bunu yerine getirecektir.
VASA-1’in arkasındaki Microsoft araştırmacıları, sistemin yüksek kare hızlarıyla oldukça yüksek çözünürlüklü videolar (512×512 piksel) oluşturabildiğini belirterek, gerçek zamanlı verimliliğini övüyor. Kare hızı veya saniye başına kare (fps), bir medya parçası içinde bir dizi görüntünün (kare olarak adlandırılır) yakalanabileceği veya art arda görüntülenebileceği frekanstır. Araştırmacılar, VASA-1’in çevrimdışı modda 45 fps, çevrimiçi oluşturmada ise 40 fps hızında videolar oluşturabildiğini iddia ediyor.
VASA-1’in durumunu kontrol edebilir ve bu konuda daha fazla bilgi edinebilirsiniz. Microsoft’un projeye özel web sayfası. Çeşitli gösterimler içerir ve bununla ilgili bilgileri indirmek için bağlantılar içerir ve ‘Riskler ve sorumlu AI hususları’ başlıklı bir bölümle biter.
Sihir gibi çalışır; ama bu bir mucize büyüsü mü yoksa felaketin tarifi mi?
Bu son değerlendirme bölümünde Microsoft, bunun gibi bir aracın kötüye kullanım için geniş bir kapsamı olduğunu kabul ediyor, ancak araştırmacılar VASA-1’in potansiyel olumlu yönlerini vurgulamaya çalışıyor. Yanlış değiller; Bunun gibi bir teknoloji, her zamankinden daha fazla öğrenciye sunulan ileri düzey eğitim deneyimleri, iletişim kurmakta güçlük çeken insanlara daha iyi yardım, arkadaşlık sağlama yeteneği ve gelişmiş dijital terapötik destek anlamına gelebilir.
Bütün bunlar, böyle bir şeyin zarar verme ve yanlış yapma potansiyelini göz ardı etmenin aptalca olacağını söyledi. Microsoft, “teknolojinin sorumlu bir şekilde ve uygun düzenlemelere uygun olarak kullanılacağına” dair güvence verilene kadar VASA-1’i herhangi bir biçimde kamuya sunma planının olmadığını belirtiyor. Eğer Microsoft bu ahlak anlayışına sadık kalırsa, bunun uzun bir bekleyiş olabileceğini düşünüyorum.
Sonuç olarak, üretken yapay zeka video araçlarının daha yaygın hale geleceğini ve hayatlarımızı doyuracakları zamana yönelik geri sayımın başladığını inkar etmenin zorlaştığını düşünüyorum. Google, bu takma isimle benzer bir yapay zeka sistemi üzerinde çalışıyor VLOGGERve yakın zamanda VLOGGER’ın tek bir fotoğraf girişiyle hareket eden, konuşan ve jest yapan insanların gerçekçi videolarını nasıl oluşturabileceğini ayrıntılarıyla anlatan bir makale yayınladı.
OpenAI ayrıca yakın zamanda kendi AI video oluşturma aracını tanıtarak manşetlere çıktı. Sorametin açıklamalarından videolar oluşturabilen. OpenAI, Sora’nın nasıl çalıştığını özel bir sayfada açıkladı ve birçok insanı etkileyen ve daha da fazla endişelendiren gösteriler sundu.
Bu yeniliklerin bize neler kazandıracağı konusunda ihtiyatlıyım ve bildiğimiz kadarıyla bu yeni araçların üçünün de sıkı bir şekilde gizli tutuluyor olmasından memnunum. Gerçekçi olmak gerekirse, bu gibi teknolojilerin kötüye kullanılmasına karşı sahip olduğumuz en iyi korumanın hava geçirmez düzenlemeler olduğunu düşünüyorum, ancak tüm hükümetlerin bu adımları zamanında atacağından şüpheliyim.