Google’ın amiral gemisi yapay zeka araştırma laboratuvarı Google DeepMind, video oluşturma oyununda OpenAI’yi yenmek istiyor – ve bu en azından bir süreliğine de olsa mümkün olabilir.
Pazartesi günü DeepMind, yeni nesil video üreten yapay zeka ve Google’ın portföyünde giderek artan sayıda ürüne güç veren Veo’nun halefi olan Veo 2’yi duyurdu. Veo 2, 4k’ye (4096 x 2160 piksel) kadar çözünürlüklerde iki dakikadan fazla klipler oluşturabilir.
Özellikle bu, OpenAI Sora’nın elde edebileceği çözünürlüğün 4 katı ve sürenin 6 katıdır.
Şimdilik teorik bir avantaj olduğu kabul ediliyor. Veo 2’nin artık özel olarak mevcut olduğu Google’ın deneysel video oluşturma aracı VideoFX’te videolar 720p ve sekiz saniye uzunluğunda sınırlandırılmıştır. (Sora, 1080p’ye kadar, 20 saniye uzunluğunda klipler üretebilir.)
VideoFX’in bir bekleme listesi var ancak Google, bu hafta ona erişebilecek kullanıcı sayısını artıracağını söylüyor.
DeepMind ürün başkan yardımcısı Eli Collins de TechCrunch’a, Google’ın Veo 2’yi “model geniş ölçekte kullanıma hazır hale geldikçe” Vertex AI geliştirici platformu aracılığıyla kullanıma sunacağını söyledi.
Collins, “Önümüzdeki aylarda, kullanıcılardan aldığımız geri bildirimlere dayanarak güncellemelere devam edeceğiz” dedi ve şöyle devam etti: [we’ll] Veo 2’nin güncellenmiş yeteneklerini Google ekosistemindeki ilgi çekici kullanım örneklerine entegre etmeye çalışın… [W]Gelecek yıl daha fazla güncelleme paylaşmayı bekliyoruz.”
Daha kontrol edilebilir
Veo gibi, Veo 2 de bir metin istemi (örn. “Otoyolda yarışan bir araba”) veya metin ve bir referans görseli verilen videolar oluşturabilir.
Peki Veo 2’deki yenilikler neler? DeepMind, çeşitli stillerde klipler oluşturabilen modelin, fizik ve kamera kontrolleri konusunda gelişmiş bir “anlayışa” sahip olduğunu ve “daha net” görüntüler ürettiğini söylüyor.
Daha net olarak DeepMind, kliplerdeki dokuların ve görüntülerin özellikle çok fazla hareketin olduğu sahnelerde daha keskin olduğu anlamına gelir. Geliştirilmiş kamera kontrollerine gelince, Veo 2’nin ürettiği videolarda sanal “kamerayı” daha hassas bir şekilde konumlandırmasına ve bu kamerayı hareket ettirerek nesneleri ve insanları farklı açılardan yakalamasına olanak tanıyor.
DeepMind ayrıca Veo 2’nin hareketi, akışkan dinamiğini (kahvenin bir bardağa dökülmesi gibi) ve ışığın özelliklerini (gölgeler ve yansımalar gibi) daha gerçekçi bir şekilde modelleyebileceğini iddia ediyor. DeepMind, bunun farklı mercekler ve sinematik efektlerin yanı sıra “incelikli” insan ifadesini de içerdiğini söylüyor.
DeepMind geçen hafta Veo 2’den özenle seçilmiş birkaç örneği TechCrunch ile paylaştı. Yapay zeka tarafından oluşturulan videolar oldukça iyi görünüyordu, hatta olağanüstü derecede iyi. Veo 2, akçaağaç şurubu gibi kırılma ve yanıltıcı sıvılar konusunda güçlü bir kavrayışa ve Pixar tarzı animasyonu taklit etme becerisine sahip gibi görünüyor.
Ancak DeepMind’ın, modelin ekstra parmaklar veya “beklenmeyen nesneler” gibi unsurları halüsinasyona uğratma ihtimalinin daha düşük olduğu yönündeki ısrarına rağmen Veo 2, tekinsiz vadiyi tam olarak temizleyemiyor.
Bu köpeğe benzeyen yaratığın cansız gözlerine dikkat edin:
Ve bu görüntüdeki tuhaf derecede kaygan yol, ayrıca arka planda birbirine karışan yayalar ve fiziksel olarak imkansız cephelere sahip binalar:
Collins yapılması gereken işler olduğunu itiraf etti.
“Tutarlılık ve tutarlılık büyüme alanlarıdır” dedi. “Veo bir istemi birkaç dakika boyunca tutarlı bir şekilde yerine getirebilir, ancak [it can’t] Uzun ufuklarda karmaşık istemlere bağlı kalın. Benzer şekilde karakter tutarlılığı da zorlayıcı olabilir. Ayrıca karmaşık ayrıntılar, hızlı ve karmaşık hareketler oluşturma ve gerçekçiliğin sınırlarını zorlamaya devam etme konusunda da geliştirilecek alan var.”
Collins, DeepMind’ın video oluşturma modellerini ve araçlarını geliştirmek için sanatçılar ve yapımcılarla çalışmaya devam ettiğini ekledi.
Collins, “Veo geliştirme sürecimizin başlangıcından bu yana Donald Glover, the Weeknd, d4vd ve diğerleri gibi yaratıcı isimlerle, yaratıcı süreçlerini ve teknolojinin vizyonlarını hayata geçirmeye nasıl yardımcı olabileceğini gerçekten anlamak için çalışmaya başladık” dedi. “Veo 1’de yaratıcılarla yaptığımız çalışmalar Veo 2’nin geliştirilmesine katkı sağladı ve bu yeni model hakkında geri bildirim almak için güvenilir test uzmanları ve yaratıcılarla birlikte çalışmayı sabırsızlıkla bekliyoruz.”
Güvenlik ve eğitim
Veo 2 birçok videoyla eğitildi. Yapay zeka modelleri genel olarak bu şekilde çalışır: Bazı veri türlerinden örnekler üzerine sunulan modeller, verilerdeki kalıpları yakalayarak yeni veriler üretmelerine olanak tanır.
DeepMind, Veo 2’yi eğitmek için videoları tam olarak nereye kaydettiğini söylemiyor ancak YouTube olası bir kaynaktır; Google, YouTube’un sahibidir ve DeepMind daha önce TechCrunch’a Veo gibi Google modellerinin bazı YouTube içerikleri konusunda eğitilebileceğini söylemişti.
Collins, “Veo, yüksek kaliteli video açıklama eşleştirmeleri konusunda eğitildi” dedi. “Video açıklama çiftleri, bir video ve bu videoda olup bitenlerin ilişkili açıklamasıdır.”
DeepMind, Google aracılığıyla, web yöneticilerinin laboratuvar botlarının web sitelerinden eğitim verileri almasını engellemelerine olanak tanıyan araçlar barındırırken, DeepMind yaratıcıların çalışmaları mevcut eğitim setlerinden kaldırmasına izin verecek bir mekanizma sunmuyor. Laboratuvar ve ana şirketi, kamuya açık verileri kullanan eğitim modellerinin adil kullanımBu, DeepMind’ın veri sahiplerinden izin isteme zorunluluğu olmadığına inandığı anlamına gelir.
Tüm yaratıcılar aynı fikirde değil – özellikle de çalışmalar Önümüzdeki yıllarda on binlerce film ve TV işinin yapay zeka nedeniyle sekteye uğrayabileceği tahmin ediliyor. Popüler AI sanat uygulaması Midjourney’in arkasındaki isimsiz girişim de dahil olmak üzere birçok AI şirketi, onları içerik üzerinde izinsiz eğitim vererek sanatçıların haklarını ihlal etmekle suçlayan davaların hedefinde.
Collins, “Ortak hedeflere ulaşmak için yaratıcılar ve iş ortaklarımızla işbirliği içinde çalışmaya kararlıyız” dedi. “Yaratıcı toplulukla ve daha geniş sektördeki insanlarla çalışmaya devam ediyoruz, VideoFX kullananlar da dahil olmak üzere içgörüler topluyor ve geri bildirimleri dinliyoruz.”
Günümüzün üretken modellerinin eğitildikleri zamanki davranış biçimleri sayesinde, bir modelin eğitim verilerinin ayna kopyasını oluşturması anlamına gelen yetersizlik gibi belirli riskler taşırlar. DeepMind’ın çözümü, şiddet içeren, sansürsüz ve müstehcen içerik de dahil olmak üzere bilgi istemi düzeyinde filtrelerdir.
Google’ın tazminat politikasıCollins, belirli müşterilere ürünlerinin kullanımından kaynaklanan telif hakkı ihlali iddialarına karşı savunma sağlayan Veo 2’nin genel kullanıma sunulana kadar geçerli olmayacağını söyledi.
Deepfake riskini azaltmak için DeepMind, Veo 2’nin oluşturduğu çerçevelere görünmez işaretleyiciler yerleştirmek için özel filigran teknolojisi SynthID’yi kullandığını söylüyor. Ancak tüm filigranlama teknolojileri gibi SynthID de kusursuz değil.
Görüntü yükseltmeleri
Veo 2’ye ek olarak, Google DeepMind bu sabah ticari imaj oluşturma modeli olan Imagen 3’e yönelik yükseltmeleri duyurdu.
Imagen 3’ün yeni bir sürümü, bugünden itibaren Google’ın görsel oluşturma aracı ImageFX kullanıcılarına sunuluyor. DeepMind’a göre fotogerçekçilik, izlenimcilik ve anime gibi tarzlarda “daha parlak, daha iyi oluşturulmuş” görüntüler ve fotoğraflar oluşturulabiliyor.
“Bu yükseltme [to Imagen 3] DeepMind, TechCrunch’a sunduğu bir blog yazısında şunları yazdı: Ayrıca istemleri daha sadık bir şekilde takip ediyor ve daha zengin ayrıntılar ve dokular sunuyor.
Modelin yanı sıra ImageFX’e yönelik kullanıcı arayüzü güncellemeleri de kullanıma sunuluyor. Artık kullanıcılar bilgi istemlerini yazdığında, bu istemlerdeki anahtar terimler, önerilen ilgili kelimelerden oluşan bir açılır menüyle birlikte “parçacıklar” haline gelecek. Kullanıcılar, yazdıklarını yinelemek için çipleri kullanabilir veya istemin altındaki otomatik olarak oluşturulan bir dizi tanımlayıcı arasından seçim yapabilir.