Metinden videoya, yapay zekadaki bir sonraki büyük şey. Birkaç hafta önce yapay zeka tarafından üretilen Pepperoni Hugspot reklamının ne kadar harika (ve biraz da ürkütücü) olduğunu gördük. Bu videoyu geliştiren kişi Pizza Later, bize adlı bir araç kullandıklarını söyledi. Pist Gen-2 (yeni sekmede açılır) o projedeki hareketli görüntüleri yapmak için. Metinden videoya motoruyla, “bir restoranda bir dilim pizza yiyen mutlu bir adam/kadın/aile, tv reklamı” gibi basit istemler verebildiler ve foto-gerçekçi içerik elde edebildiler.
Runway Gen-2’nin herkese açık beta sürümüne yeni eriştim ve çıktısının gerçekçi doğasından gerçekten etkilendim. Videoların her biri sadece dört saniyelik kısa olsa da, görüntülerin kalitesi etkileyici ve hepsi, Runway ML’nin Discord sunucusundaki bir bota kısa istekler göndererek çalışıyor.
@Gen-2 botuna birkaç kelimelik bir metin göndererek, suşi yemeği yiyen bir aileden ciddi bir içki sorunu olan bir robota kadar her şeyin kısa, foto-gerçekçi (veya karikatür tarzı) kliplerini elde edebildim. Çıktı genellikle tam olarak istediğim gibi değildi, ancak her zaman ilginçti ve geçen hafta hakkında yazdığım NeuralInternet Metinden Videoya Oyun Alanından üstündü.
Herkes sunucuya katılabilirken, Gen-2 sohbet odalarının listesini yalnızca beta programına eriştiğinizde göreceksiniz (çoğu bekleme listesindedir). Diğer kullanıcılarla sohbet edip projeleri paylaşabileceğiniz bazı odalar vardır ve ardından doğrudan @Gen-2 botuna bilgi istemleri göndermek için gidebileceğiniz Generate One, Generate Two ve Generate Three adlı üç oda vardır. Moderatörler, her bir sohbet odasını mahvetmemek için aynı konuya istem göndermeye devam etmenizi tavsiye ediyor.
Prompting Runway Gen-2
Bir Runway Gen-2 istemi, “@Gen-2 Kameraya bakan ve ağzından küçük vidalar kusan sarhoş bir insansı robot” gibi bir şeye benzeyebilir. Bot, isteminizle ve kullandığı bazı parametrelerle (ör. “yükseltme”) hemen yanıt verir ve bunları yeni bir istem yayınlayarak değiştirebilirsiniz (bununla ilgili daha sonra konuşacağız). Ardından, birkaç dakika sonra isteminize göre 4 saniyelik bir video alacaksınız.
Sarhoş robotum böyle görünüyordu. Tüm videolar Discord içinden oynatılabilir ve bunları MP4 dosyaları olarak indirebilirsiniz. Bu makalede gösterilen tüm video örneklerini ayrı ayrı animasyonlu GIF’lere dönüştürdüm, böylece onları daha kolay görüntüleyebiliriz (ve videodan önce gösterilen reklamlar olmadan).
Yukarıdaki klibin tam olarak istediğim şey olmadığını fark edeceksiniz. Robot, tasarladığım gibi vidaları kusmuyor. Bunun yerine, tehditkar bir şekilde bir bardak biraya bakıyor. Bu istemdeki diğer girişimlerim de tam olarak istediğim şey değildi. “Sarhoş” kelimesini dışarıda bıraktığımda, ağzını açan ama hiçbir şey tükürmeyen bir robot gördüm.
Resimleri Runway Gen-2 İstemleriyle Kullanma
Ayrıca, metin istemiyle birlikte kopyalayıp Discord’a yapıştırarak veya görüntünün URL’sini istemin içine koyarak bota görüntü besleyebilirsiniz. Ancak Runway Gen-2 aslında yüklediğiniz görüntüyü kullanmayacaktır. Kendi videosunu oluştururken sadece görüntüden ilham alacaktır. Birçok kez kendi resimlerimi yükledim ve bana biraz benzeyen ama kesinlikle ben olmayan insanların videolarını verdi.
Örneğin, kendi fotoğrafımı yüklediğimde ve daha fazla bilgi vermediğimde, bir nehrin ve bazı binaların yanında duran, ben olmayan, saçsız, güneş gözlüklü, orta yaşlı bir adam gösteriyordu. Ağzı hareket etti ve su hareket etti.
Runway Gen-2 botu, sağladığınız bir görüntünün duygu veya konusunu kopyalamada daha iyidir. Ona yüzümde tiksinti ifadesi olan bir resmimi gösterdim ve “kameraya bakan ve ağzından ‘ah adamım’ diyen bu adamı sordum.”
Discord sunucusundaki birçok kullanıcı, Midjourney veya Stable Diffusion gibi başka bir yapay zeka aracıyla bir durağan görüntü oluşturup ardından bu görüntüyü besleyerek harika sonuçlar elde ettiklerini söylüyor. CLIP Interrogator 2.1 Yüze Sarılmabir resme bakan ve ardından size o resme atıfta bulunduğunu düşündüğünü söyleyen bir araç.
Stable Diffusion’dan 1980’lerde kaldırımda oyuncak robotlarla oynayan bir çocuğun resmini yapmasını isteyerek bu süreci denedim. Daha sonra görüntüyü CLIP Interrogator’a aldım ve bunun için “robotun yanında duran çocuk” gibi oldukça açık olan bazı örnek istemler aldım. Yine de, aynı görüntüyü istemde beslemek bana istediğimi tam olarak vermedi. Bir sokağın önünde duran iki robotlu bir çocuğum var ama bu aynı sokak ya da çocuk değildi.
Taşınmak ya da Hareket Etmemek
Zaman sınırlamasının kendisi, genellikle her klipte hareket için fazla zaman olmadığı anlamına gelir. Ancak bunun da ötesinde, birçok klibin içinde çok az hareket olduğunu gördüm. Çoğu zaman, sadece birinin kafasını sallaması ya da bir sıvının akması ya da ateşten yükselen dumandı.
Daha fazla hareket elde etmenin iyi bir yolu, hızlandırılmış veya bir tür kaydırma talep eden bir bilgi istemi koymaktır. İzlanda’daki bir Volkan’ın hızlandırılmış görüntüsünü veya bir New York metrosunun pan görüntüsünü istediğimde oldukça güzel sonuçlar aldım. Taipei silüetinin kaydırmalı bir görüntüsünü sorduğumda, hareket eden bulutlar var ama kaydırma yok ve şehir kesinlikle Taipei değildi.
Koşmak, kovalamak ya da ata binmek istemek işi bitirebilir ya da bitirmeyebilir. “Kaykay kaplumbağası” dediğimde, kaplumbağaya benzer bir tür korkunç hayvanın sokakta hızlı bir şekilde yuvarlandığını gördüm. Ancak Intel ve AMD boksörlerinin birbirleriyle dövüşmesini istediğimde, hiç hareket etmeyen (ve Intel veya AMD logoları olmayan) iki boksörün resmini aldım.
Runway Gen-2 Hangi Konularda İyi ve Kötü?
Diğer AI görüntü oluşturucuları gibi, Runway Gen-2 de çok özel, markalı karakterleri, ürünleri veya yerleri yeniden üretme konusunda harika bir iş çıkarmıyor. Mario ve Luigi boksu için sorduğumda, Nintendo’nun karakterlerinin kopyası gibi görünen iki karakterim var. Birçok kez Godzilla videoları istedim ve en sıradan hayranların bile King of Monsters ile karıştırmayacağı dev kertenkeleler aldım.
Minecraft referansları ile biraz daha iyiydi. Bir creeper ve pizza yiyen bir enderman ve yine McDonald’s’ta yemek yiyen bir creeper istediğimde, düzgün görünümlü creeper’lar aldım ama hatalı bir enderman. Pizza yiyen bir sarmaşık ailesi istemek bana Minecraft’tan gelmiş gibi görünen bir insansı aile verdi. Minecraft oynayan herkes, sürüngenlerin siyah benekli yeşil canavarlar olduğunu bilir.
Araç, logolar konusunda berbat. Ona Tom’s Hardware logosunu verdim ve logoyu bir reklamda kullanmasını istedim ve o da bana bu tuhaf şeyi geri verdi.
Ondan yanan bir AMD Ryzen CPU istediğimde, sadece kendi gözlerinizle görmeniz gereken logolu bir PCU’ya benzeyen bir şey aldım (aşağıda).
Runway Gen-2’nin gerçekten iyi yaptığı şey, size yemek yemek gibi şeyler yapan insanların ve ailelerin genel görüntülerini vermektir. Onlara tam olarak istediğinizi yemelerini sağlayabilir veya vermeyebilirsiniz. Canlı solucan yiyen bir aile istediğimde, daha çok salata yiyormuş gibi görünen bir ailem oldu. 1970’lerde bir pizza restoranında suşi yiyen bir aile özellikle gerçekçi görünüyordu.
Bir kişiyi etnik kökenini belirtmeden sorduğumda neredeyse her zaman beyaz insanlar aldığımı belirtmek zorunda hissediyorum. Özellikle istemeden beyaz olmayan bir aileye (veya kişiye) sahip olduğum tek zaman, aileden suşi yemesini istediğim zamandır. Bu, birçok üretici yapay zeka modelindeki eğitim verileriyle ilgili iyi bilinen bir sorundur.
Özel Parametreler
Çıktıyı biraz değiştirmek için Runway Gen-2’de isteminizin sonuna ekleyebileceğiniz bir avuç parametre vardır. Bunlarla pek dalga geçmedim.
- — lüks daha yüksek çözünürlük sunar
- — enterpolasyon videoyu daha akıcı hale getirir
- –cfg [number] yapay zekanın ne kadar yaratıcı hale geldiğini kontrol eder. Daha yüksek değerler, istediğinize daha yakındır.
- –yeşil Ekran videonun çıktısını, düzenlemede kullanabileceğiniz yeşil bir ekran alanıyla alın
- –tohum sonucu belirlemeye yardımcı olan bir sayıdır. Varsayılan olarak, her seferinde rastgele bir sayıdır, ancak aynı sayıyı tekrar kullanırsanız benzer bir sonuç almanız gerekir.
Hepsini Bir Arada Dikmek
İnternette Runway Gen-2 videoları için arama yaparsanız, 4 saniyeden uzun ve sesli birçok video görebilirsiniz. İnsanlar bu videoları, birçok farklı 4 saniyelik klibi bir video düzenleyicide bir araya getirerek ve başka bir yerden edindikleri ses ve müziği ekleyerek oluştururlar.
Bu Runway Gen-2 videolarının en ünlülerinden biri de yukarıda bahsettiğim Pepperoni Hugspot pizza reklamı. Ancak, Runway ML Discord’da, YouTube bağlantılarını kreasyonlarına gönderen birçok insan görüyorum. benim favorilerimden biri “Spagetti Terörü” Andy McNamara tarafından Twitter’a gönderildi. Ve Pizza Later’ın yeni avukat reklamı bir yuhalama.
Sonuç olarak
Ben bunu yazarken Runway Gen-2 özel beta sürümünde, ancak şirket, Gen-1 ürününde zaten olduğu gibi, bunu yakında herkesin kullanımına sunmayı planladığını söyledi. Bir teknoloji demosu olarak, gerçekten etkileyici ve birinin stok video veya stok animasyonlu GIF’ler yerine onun kısa kliplerini kullandığını görebiliyorum.
Süre 60 saniyeye uzatılsa bile, bu aracın yakın zamanda profesyonelce (hatta amatörce) çekilmiş videonun yerini alması pek olası görünmüyor. Çok özel yerleri ve insanları doğru bir şekilde yeniden üretememesi büyük bir moral bozucu ama aynı zamanda şimdiye kadar görüntü oluşturan her yapay zekada gördüğüm bir sınırlama. Ancak teknoloji tam orada ve eğitim verileri ölçeklendikçe bu daha da etkileyici olabilir.