Yapay zekamı, yabancı peynir çeşitlerimi sevdiğim gibi seviyorum, inanılmaz derecede tuhaf ve deliklerle dolu, çoğu “iyi” tanımını kişisel zevke bırakan türden. Halka açık yapay zeka modellerinin bir sonraki sınırını keşfederken ve yapay zeka tarafından oluşturulan tuhaf deneyimlerden bu yana yaşadığım en tuhaf deneyimlerden birini bulduğumda beni şaşırtın. Seinfeld bayıltmak Hiçbir şey, sonsuza kadar ilk serbest bırakıldı.

Runway, iki girişimden biri AI sanat üreteci Stable Diffusion’ı vermemize yardımcı olduPazartesi günü kendi için ilk halka açık testinin yapıldığını duyurdu. Gen-2 AI video modeli yakında yayına girecekti. Şirket, bunun “halka açık ilk metinden videoya dönüştürme modeli” olduğu konusunda çarpıcı bir iddiada bulundu. Ne yazık ki, çok daha sarsıcı bir ilk metinden videoya modeline sahip daha belirsiz bir grup, Runway’i yumruk atmış olabilir.

Google Ve Meta zaten kendi metinden görüntüye oluşturucuları üzerinde çalışıyorlar, ancak her iki şirket de ilk dalga geçildiğinden beri herhangi bir haber konusunda pek açık sözlü olmadı. Şubat ayından bu yana, Runway’deki nispeten küçük 45 kişilik ekip, videodan videoya dönüştürme de dahil olmak üzere çevrimiçi video düzenleme araçlarıyla tanınıyor. Gen-1 AI modeli metin istemlerine veya referans resimlere dayalı olarak mevcut videoları oluşturabilen ve dönüştürebilen. Gen-1, yüzen bir çöp figürün basit bir görüntüsünü tüplü bir dalgıca dönüştürebilir veya sokakta yürüyen bir adamı oluşturulan bir kaplamayla çamurlu bir kabusa dönüştürebilir. Kullanıcıların basit metin istemlerine dayalı sıfırdan 3 saniyelik videolar oluşturmasına olanak tanıyan Gen-2’nin bir sonraki büyük adım olması bekleniyor. Şirket henüz kimsenin eline geçmesine izin vermese de, “yakından bir göz” ve “bir dağ manzarasının havadan çekimi” gibi yönlendirmelere dayalı birkaç klip paylaştı.

Şirket dışından çok az kişi mümkün Runway’in yeni modelini deneyimleyin, ancak yine de AI video üretimi için can atıyorsanız, başka bir seçenek daha var. AI ModelScope adı verilen metinden videoya sistemi geçen hafta sonu yayınlandı ve ara sıra garip ve çoğu zaman çılgın 2 saniyelik video klipleriyle şimdiden bazı söylentilere neden oldu. E-ticaret devi Alibaba’nın bir araştırma bölümü olan DAMO Vision Intelligence Lab, sistemi bir tür halka açık test durumu olarak yarattı. Şirketin açıklamalarına göre sistem, videolarını oluşturmak için oldukça basit bir yayılma modeli kullanıyor. sayfa AI modelini açıklıyor.

ModelScope açık kaynaktır ve zaten şu adreste mevcuttur: Sarılma Yüz, sistemi ayrı bir GPU sunucusunda çalıştırmak için küçük bir ücret ödemeden sistemi çalıştırmak zor olsa da. Teknik YouTuber Matt Wolfe bunun nasıl ayarlanacağı hakkında iyi bir öğretici var. Elbette, teknik beceriye ve onu destekleyecek VRAM’e sahipseniz, devam edip kodu kendiniz çalıştırabilirsiniz.

ModelScope, verilerinin nereden geldiği konusunda oldukça açık. Oluşturulan bu videoların çoğu, Shutterstock logosunun belirsiz taslağını içerir; bu, eğitim verilerinin muhtemelen stok fotoğraf sitesinden alınan videoların ve görüntülerin büyük bir bölümünü içerdiği anlamına gelir. Stable Diffusion gibi diğer AI görüntü oluşturucularda da benzer bir sorun var. Getty Images, Stability AI’a dava açtıAI sanat üretecini kamuoyunun ışığına çıkaran şirket ve kaç tane Stable Difüzyon görüntüsünün Getty filigranının bozuk bir sürümünü oluşturduğunu not etti.

Elbette bu, bazı kullanıcıların bunun gibi oldukça tuhaf yapay zekayı kullanarak küçük filmler yapmasını engellemedi. tombul suratlı Darth Vader bir süpermarketi ziyaret ediyor veya Örümcek Adam ve bir kapibara dünyayı kurtarmak için bir araya gelmek.

Runway’e gelince, grup AI araştırmalarının her zamankinden daha kalabalık hale gelen dünyasında bir isim yapmak istiyor. onların içinde kağıt Gen-1’i tanımlıyor Runway araştırmacıları, modellerinin altyazısız videoların yanı sıra metin-resim verileri içeren “büyük ölçekli bir veri kümesinin” hem görüntüleri hem de videosu üzerinde eğitildiğini söyledi. Bu araştırmacılar, internetten kazınmış görüntüleri içeren diğer görüntü veri kümeleriyle aynı kaliteye sahip video-metin veri kümelerinin eksikliğini buldular. Bu, şirketi verilerini videoların kendisinden almaya zorlar. Runway’in muhtemelen daha gösterişli metinden videoya versiyonunun, özellikle Google gibi ağır hitlerin daha uzun biçimli anlatı videolarını gösterdiği zamana kıyasla nasıl bir araya geldiğini görmek ilginç olacak.

Runway’in yeni Gen-2 bekleme listesi Gen-1’deki gibiyse, kullanıcılar sistemi tamamen ele geçirmeden önce birkaç hafta beklemeyi bekleyebilirler. Bu arada, ModelScope ile oynamak, daha garip AI yorumları arayanlar için iyi bir ilk seçenek olabilir. Tabii ki, bu biz sahip olmadan önce aynı konuşmalar şimdi yapay zeka tarafından oluşturulan görüntüler hakkında yaptığımız yapay zeka tarafından oluşturulan videolar hakkında.

Aşağıdaki slaytlar, Runway ile ModelScope’u karşılaştırma ve ayrıca metinden görüntünün yapabileceklerinin sınırlarını test etme girişimlerimden bazılarıdır. Her birinde aynı parametreleri kullanarak görüntüleri GIF formatına dönüştürdüm. GIF’lerdeki kare hızı, AI tarafından oluşturulan orijinal videolara yakındır.



genel-7