Google’ın video oluşturucusu birkaç müşteriye, daha doğrusu Google Cloud müşterilerine daha geliyor.
Salı günü Google, görüntülerden ve istemlerden kısa video klipler oluşturabilen yapay zeka modeli Veo’nun, Google Cloud’un yapay zeka geliştirme platformu Vertex AI’yi kullanan müşteriler için özel önizleme olarak sunulacağını duyurdu.
Google, lansmanın bir müşteri olan Quora’nın Veo’yu Poe sohbet robotu platformuna getirmesine ve diğer bir müşteri olan Oreo sahibi Mondelez International’ın ajans ortaklarıyla pazarlama içeriği oluşturmasına olanak tanıyacağını söylüyor.
Poe ürün lideri Spencer Chan yaptığı açıklamada, “Poe’yu dünyanın en iyi üretken yapay zeka modellerine erişimi demokratikleştirmek için yarattık” dedi. “Google gibi liderlerle yaptığımız ortaklıklar sayesinde, tüm yapay zeka yöntemlerinde yaratıcı olanakları genişletiyoruz.”
Amiral gemisi jeneratörü
Nisan ayında tanıtılan Veo, saniyede 24 veya 30 kare hızında, altı saniyeye kadar uzunlukta 1080p hayvan, nesne ve insan klipleri oluşturabiliyor. Google, Veo’nun manzara ve hızlandırılmış çekimler de dahil olmak üzere farklı görsel ve sinematik tarzları yakalayabildiğini ve önceden oluşturulmuş çekimlerde düzenlemeler yapabildiğini söylüyor.
API için neden bu kadar uzun süre beklemek gerekiyor? Google Cloud ürün yönetimi kıdemli direktörü Warren Barkley, “Kurumsal hazırlık” diyor.
“Veo’nun duyurulmasından bu yana ekiplerimiz kurumsal müşteriler için Vertex AI üzerindeki modeli güçlendirdi, güçlendirdi ve geliştirdi” dedi. “Bugün itibariyle 720p, 16:9 yatay veya 9:16 dikey en boy oranlarında yüksek çözünürlüklü videolar oluşturabilirsiniz. Vertex AI üzerinde Gemini gibi diğer modellerin yeteneklerini geliştirdiğimiz gibi, bunu Veo için de yapmaya devam edeceğiz.”
Google, Veo’nun VFX’i istemlerden oldukça iyi anladığını (“muazzam patlama” gibi başlıklar düşünün) ve akışkanlar dinamiği de dahil olmak üzere fizik konusunda bir miktar kavrayışa sahip olduğunu söylüyor. Model aynı zamanda bir videonun belirli bölgelerinde yapılan değişiklikler için maskeli düzenlemeyi de destekliyor ve teknik olarak görüntüleri daha uzun projelerde bir araya getirme yeteneğine sahip.
Bu yönlerden Veo, günümüzün önde gelen video oluşturma modelleriyle (yalnızca OpenAI’nin Sora’sıyla değil aynı zamanda Adobe, Runway, Luma, Meta ve diğer modellerle) rekabet edebilir.
Bu Veo’nun mükemmel olduğu anlamına gelmiyor. Günümüzün yapay zekasının sınırlamalarını yansıtan Veo’nun videolarındaki nesneler, fazla bir açıklama veya tutarlılık olmadan kaybolup yeniden ortaya çıkıyor. Veo genellikle fiziğini yanlış anlıyor. Örneğin, arabalar açıklanamaz, imkansız bir şekilde bir kuruşta geri dönecektir.
Eğitim ve riskler
Veo çok sayıda görüntü üzerinde eğitildi. Üretken yapay zeka modellerinde genel olarak bu şekilde çalışır: Bazı veri türlerinden örnekler üzerine sunulan modeller, verilerdeki kalıpları yakalayarak yeni veriler (Veo’nun durumunda videolar) oluşturmalarını sağlar.
Google, yapay zeka rakiplerinin çoğu gibi, üretken modellerini eğitmek için verileri nereden aldığını tam olarak söylemiyor. Özellikle Veo hakkında soru sorulduğunda Barkley, yalnızca modelin “bazı” YouTube içerikleri üzerinde “eğitim alabileceğini” söyledi. [Google’s] YouTube içerik oluşturucularıyla anlaşma.” (Google’ın ana şirketi Alphabet, YouTube’un sahibidir.)
“Veo, güvenlik ve emniyet için yoğun şekilde seçilmiş çeşitli yüksek kaliteli, video açıklamalı veri kümeleri üzerinde eğitildi” diye ekledi. “Google’ın temel modelleri öncelikle kamuya açık kaynaklar üzerinde eğitilmiştir.”
The New York Times’ın Nisan ayındaki raporu, Google’ın hizmet şartlarını genişletti geçen yıl kısmen şirketin yapay zeka modellerini eğitmek için daha fazla veriden yararlanmasına olanak sağlamak için. Eski Hizmet Şartları kapsamında Google’ın, video platformunun ötesinde ürünler oluşturmak için YouTube verilerini kullanıp kullanamayacağı açık değildi. Dizginleri önemli ölçüde gevşeten yeni şartlara göre durum böyle değil.
Google, web yöneticilerinin şirketin botlarının web sitelerinden eğitim verilerini almasını engellemesine olanak tanıyan araçları barındırıyor ancak yaratıcıların çalışmalarını mevcut eğitim setlerinden kaldırmasına izin verecek bir mekanizma sunmuyor. Google, kamuya açık verileri kullanan eğitim modellerinin adil kullanımBu, şirketin veri sahiplerinden izin istemek veya tazminat ödemek zorunda olmadığına inandığı anlamına gelir. (Ancak Google, modellerini eğitmek için müşteri verilerini kullanmadığını söylüyor.)
Günümüzün üretken modellerinin eğitildikleri zamanki davranış biçimleri sayesinde, bir modelin eğitim verilerinin ayna kopyasını oluşturması anlamına gelen yetersizlik gibi belirli riskler taşırlar. Runway’inki gibi araçların dışarı fırladığı görüldü fotoğraflar Telif hakkıyla korunan videolardakilere büyük ölçüde benzer ve araçların kullanıcıları için olası bir yasal mayın tarlası oluşturur.
Google’ın çözümü, şiddet içeren ve müstehcen içerik de dahil olmak üzere Veo için bilgi istemi düzeyinde filtrelerdir. Bunların başarısız olması durumunda şirket, tazminat politikası Uygun Veo kullanıcılarına telif hakkı ihlali iddialarına karşı bir savunma sağlar.
Barkley, “Vertex AI’deki Veo çıktılarını genel kullanıma sunulduğunda tazmin etmeyi planlıyoruz” dedi.
Veo her yerde
Geçtiğimiz birkaç ay boyunca Google, modeli geliştirmeye çalışırken yavaş yavaş Veo’yu daha fazla uygulama ve hizmetine dahil etti.
Mayıs ayında Google, Veo’yu seçkin test kullanıcıları için erken erişim programı olan Google Labs’a getirdi. Eylül ayında Google, içerik oluşturucuların arka planlar ve altı saniyelik video klipler oluşturmasına olanak tanıyan YouTube’un kısa biçimli video formatı olan YouTube Shorts için Veo entegrasyonunu duyurdu.
Peki ya tüm bunların deepfake riskleri diye merak ediyor olabilirsiniz? Google, görünmez işaretleyicileri Veo’nun oluşturduğu çerçevelere yerleştirmek için tescilli filigran teknolojisi SynthID’yi kullandığını söylüyor. Kabul edelim ki SynthID, düzenlemelere karşı kusursuz değildir ve Google, içerik kimliği parçasını üçüncü tarafların kullanımına sunmamıştır.
Eğer Veo anlamlı bir ilgi göremezse bunlar tartışmalı konular olabilir. Ortaklıklar cephesinde Google, araçlarıyla yapımcıları, stüdyoları ve yaratıcı ajansları etkilemek için hızla harekete geçen üretken yapay zeka rakiplerine yerini bıraktı. Runway yakın zamanda stüdyonun film kataloğunda özel bir model yetiştirmek için Lionsgate ile bir anlaşma imzaladı ve OpenAI ile işbirliği yaptı. markalar Ve bağımsız direktörler Sora’nın potansiyelini sergilemek için.
Google bir noktada Veo’nun uygulamalarını Donald Glover (AKA Childish Gambino) gibi sanatçılarla işbirliği içinde araştırdığını söyledi. Şirket bugün bu sosyal yardım çalışmaları hakkında herhangi bir güncelleme yapmadı.
Google’ın, maliyetleri azaltmanın ve video içeriğini hızlı bir şekilde yinelemenin bir yolu olan Veo’ya yönelik sunumu, yaratıcıların yabancılaşması riskini taşıyor. 2024 çalışmak Hollywood animatörlerini ve karikatüristlerini temsil eden bir sendika olan Animation Guild tarafından görevlendirilen şirket, 2026 yılına kadar ABD merkezli 100.000’den fazla film, televizyon ve animasyon işinin yapay zeka nedeniyle kesintiye uğrayacağını tahmin ediyor.
Bu, Google’ın temkinli, “yavaş ve istikrarlı” yaklaşımını açıklayabilir. Sorulduğunda Barkley, Veo’nun Vertex’teki genel kullanılabilirliği hakkında bir ETA vermedi ve Veo’nun ek Google platformlarına ve hizmetlerine ne zaman gelebileceğini söylemedi.
“Ürünleri genel olarak daha geniş kullanıma sunulmadan önce, kurumsal müşterilerimizden oluşan seçkin bir gruptan gerçek dünyaya ait geri bildirimler almamıza olanak tanıdığından, ürünleri genellikle ilk önce önizleme aşamasında yayınlıyoruz” dedi. “Bu, işlevselliğin geliştirilmesine yardımcı oluyor ve ürünün müşterilerimizin ihtiyaçlarını karşılamasını sağlıyor.”
Bugün ilgili bir duyuruda Google, amiral gemisi görüntü oluşturucu Imagen 3’ün artık tüm Vertex AI müşterileri için bekleme listesi olmadan kullanılabileceğini söyledi. Yeni özelleştirme ve görüntü düzenleme özellikleri kazandı ancak bunlar şimdilik ayrı bir bekleme listesinin arkasında yer alıyor.