“Avengers: Endgame” gibi destek amaçlı Marvel filmlerinin yönetmeni Joe Russo, Collider ile yakın zamanda yaptığı bir panel röportajında, yapay zekanın iki yıl içinde tam teşekküllü bir film yaratabileceğini öngördü.

Bunun oldukça iyimser bir zaman çizelgesi olduğunu söyleyebiliriz. Ama yaklaşıyoruz.

Bu hafta Runway, bir Google destekli Yapay zeka görüntü oluşturucu Stable Diffusion’ın geliştirilmesine yardımcı olan yapay zeka girişimi, metin istemlerinden veya mevcut bir görüntüden videolar oluşturan bir model olan Gen-2’yi piyasaya sürdü. (Gen-2 daha önce sınırlı, bekleme listesine alınmış erişimdeydi.) Runway’in Şubat ayında piyasaya sürülen Gen-1 modelinin devamı olan Gen-2, ticari olarak mevcut ilk metinden videoya modellerden biridir.

“Ticari olarak temin edilebilir” önemli bir ayrımdır. Üretken yapay zekada görüntü ve metinden sonraki mantıksal sınır olan metinden videoya, özellikle son bir yıl içinde birçoğu metinden videoya modellerin tanıtımını yapan teknoloji devleri arasında daha büyük bir odak alanı haline geliyor. Ancak bu modeller, sıkı bir şekilde araştırma aşamalarında kalıyor ve birkaç seçkin veri bilimci ve mühendis dışında kimsenin erişemeyeceği bir durumda.

Tabii ki, ilk mutlaka daha iyi değildir.

Sevgili okuyucular, kişisel merakımdan ve size hizmetimden dolayı, modelin neyi başarabildiğini ve başaramadığını anlamak için Gen-2 üzerinden birkaç bilgi istemi yürüttüm. (Runway şu anda yaklaşık 100 saniyelik ücretsiz video üretimi sağlıyor.) Çılgınlığımın pek bir yöntemi yoktu, ancak bir yönetmenin, profesyonelin veya koltuğun görmek isteyebileceği bir dizi açı, tür ve stil yakalamaya çalıştım. gümüş ekranda – veya duruma göre bir dizüstü bilgisayarda.

Gen-2’nin hemen fark edilen bir sınırlaması, modelin oluşturduğu dört saniye uzunluğundaki videoların kare hızıdır. Yer yer neredeyse slayt gösterisine benzeyen noktaya kadar oldukça düşük ve fark edilir derecede düşük.

Pist Gen-2

Görsel Kaynakları: Koşu yolu

Net olmayan şey, bunun teknolojiyle ilgili bir sorun mu yoksa Runway’in bilgi işlem maliyetlerinden tasarruf etme girişimi mi olduğu. Her durumda, Gen-2’yi, post prodüksiyon çalışmasından kaçınmayı uman editörler için yarasadan oldukça çekici olmayan bir teklif haline getiriyor.

Kare hızı sorununun ötesinde, Gen-2 tarafından oluşturulan kliplerin, sanki bir tür eski moda Instagram filtresi uygulanmış gibi, ortak olarak belirli bir grenliliği veya bulanıklığı paylaşma eğiliminde olduğunu buldum. “Kamera” (daha iyi bir kelime olmadığı için) nesneleri daire içine aldığında veya hızla onlara doğru yakınlaştırdığında nesnelerin etrafındaki pikselleşme gibi diğer yapaylıklar da yerlerde meydana gelir.

Birçok üretken modelde olduğu gibi, Gen-2 de fizik veya anatomi açısından özellikle tutarlı değildir. Bir sürrealistin uydurduğu bir şey gibi, Gen-2 tarafından üretilen videolardaki insanların kolları ve bacakları birleşip tekrar ayrılıyor, bu sırada nesneler zeminde eriyip yok oluyor, yansımaları çarpık ve çarpık. Ve – isteme bağlı olarak – yüzler, ucuz bir plastiği çağrıştıran parlak, duygusuz gözleri ve macunsu teniyle oyuncak bebek gibi görünebilir.

Pist Gen-2

Görsel Kaynakları: Koşu yolu

Daha yükseğe yığmak için içerik sorunu var. Gen-2, nüansı anlamakta zorlanıyor gibi görünüyor, istemlerde belirli tanımlayıcılara yapışırken diğerlerini görmezden geliyor, görünüşe göre rastgele.

Pist Gen-2

Görsel Kaynakları: Koşu yolu

Denediğim istemlerden biri, “Eski bir kamerada ‘bulunan görüntü’ filmi tarzında çekilmiş bir sualtı ütopyasının videosu, böyle bir ütopya yaratmadı – yalnızca birinci şahıs tüplü dalış gibi görünen bir şey getirdi. isimsiz bir mercan resifi. Gen-2, diğer istemlerimle de mücadele etti, özellikle “yavaş yakınlaştırma” gerektiren bir komut istemi için yakınlaştırma çekimi oluşturamadı ve ortalama astronotunuzun görünümünü tam olarak tutturamadı.

Sorunlar Gen-2’nin eğitim veri setinde olabilir mi? Belki.

Gen-2, Stable Difusion gibi, bir difüzyon modelidir, yani tamamen gürültüden oluşan bir başlangıç ​​görüntüsünden adım adım bilgi istemine yaklaşmak için gürültüyü kademeli olarak çıkarmayı öğrenir. Difüzyon modelleri, milyonlarca ila milyarlarca örnek üzerinde eğitim yoluyla öğrenir; bir akademik ortamda kağıt Gen-2’nin mimarisini detaylandıran Runway, modelin 240 milyon görüntü ve 6,4 milyon video klipten oluşan dahili bir veri seti üzerinde eğitildiğini söylüyor.

Örneklerdeki çeşitlilik anahtardır. Veri kümesi çok fazla animasyon görüntüsü içermiyorsa, model – referans noktalarından yoksun – makul kalitede animasyonlar üretemez. (Elbette animasyon geniş bir alandır, veri seti yaptı anime veya elle çizilmiş animasyon klipleri varsa, model mutlaka iyi bir şekilde genelleme yapmaz. Tümü animasyon türleri.)

Pist Gen-2

Görsel Kaynakları: Koşu yolu

Artı tarafta, Gen-2, yüzey düzeyinde bir sapma testinden geçer. DALL-E 2 gibi üretici yapay zeka modellerinin toplumsal önyargıları güçlendirdiği ve çoğunlukla beyaz erkekleri tasvir eden “CEO veya “yönetmen” gibi otorite konumlarının görüntülerini oluşturduğu tespit edilirken, Gen-2 içerikte en ufak bir çeşitlilik gösteriyordu. üretti – en azından testlerimde.

Pist Gen-2

Görsel Kaynakları: Koşu yolu

“Bir konferans odasına giren bir CEO’nun videosu” istemini besleyen Gen-2, konferans masasına benzer bir şeyin etrafında oturan kadın ve erkekleri (kadınlardan çok erkekler olsa da) gösteren bir video oluşturdu. Bu arada, “Bir ofiste çalışan bir doktorun videosu” isteminin çıktısı, bir masanın arkasında belli belirsiz Asyalı görünen bir kadın doktoru tasvir ediyor.

Yine de “hemşire” kelimesini içeren herhangi bir bilgi isteminin sonuçları daha az umut vericiydi ve sürekli olarak genç beyaz kadınları gösteriyordu. “Masa bekleyen bir kişi” ifadesi için de aynı şey. Anlaşılan, yapılacak işler var.

Benim için tüm bunlardan çıkarılacak sonuç, Gen-2’nin herhangi bir video iş akışında gerçekten yararlı bir araçtan çok bir yenilik veya oyuncak olmasıdır. Çıktılar daha tutarlı bir şeye dönüştürülebilir mi? Belki. Ancak videoya bağlı olarak, ilk etapta çekim yapmaktan potansiyel olarak daha fazla çalışma gerektirecektir.

bu olmayacak fazla teknolojiyi reddediyor. Runway’in burada yaptığı şey etkileyici, teknoloji devlerini metinden videoya yumrukta etkili bir şekilde geride bırakıyor. Ve eminim ki bazı kullanıcılar Gen-2 için fotogerçekçilik veya çok fazla özelleştirilebilirlik gerektirmeyen kullanımlar bulacaktır. (Pist CEO’su Cristóbal Valenzuela son zamanlarda Bloomberg’e Gen-2’yi sanatçılara ve tasarımcılara yaratıcı süreçlerinde yardımcı olabilecek bir araç sunmanın bir yolu olarak gördüğünü söyledi.)

Pist Gen-2

Görsel Kaynakları: Koşu yolu

kendim yaptım Gen-2, kendilerini daha düşük çerçeve hızlarına uygun hale getiren anime ve claymation gibi bir dizi stili gerçekten anlayabilir. Biraz kurcalama ve düzenleme çalışmasıyla, bir anlatı parçası oluşturmak için birkaç klibi bir araya getirmek imkansız olmazdı.

Deepfake potansiyeli sizi endişelendirmesin diye Runway, kullanıcıların pornografi, şiddet içeren içerik veya telif haklarını ihlal eden videolar oluşturmasını önlemek için yapay zeka ve insan denetiminin bir kombinasyonunu kullandığını söylüyor. Bir içerik filtresi olduğunu doğrulayabilirim – aslında aşırı hevesli. Ama tabii ki bunlar kusursuz yöntemler değil, bu yüzden pratikte ne kadar işe yaradıklarını görmemiz gerekecek.

Pist Gen-2

Görsel Kaynakları: Koşu yolu

Ama en azından şimdilik, film yapımcıları, animatörler ve CGI sanatçıları ve etik uzmanları rahatlayabilir. Runway’in teknolojisi, oraya ulaştığını varsayarsak, film kalitesinde çekimler üretmeye yaklaşmadan önce en azından birkaç yineleme olacak.



genel-24