OpenAI, basit istemleri kullanarak 60 saniyelik yüksek kaliteli video üretebilen üretken bir yapay zeka hizmetini kısa süre önce duyurdu. Bu bir metinden videoya dönüştürme şablonudur. adı “Sora”OpenAI’nin test etmeye başladığı.
Sora, şu anda bir dakikaya kadar videolar üretebilen üretken bir yapay zekadır. Başarı, videonun kalitesinde ve kullanıcının talimatlarına uyulmasında yatmaktadır.
Model, doğal dil anlayışını, yorumunu ve videoya çevirisini geliştirmek için Dall-E LLM’den alınan eğitim verilerini kullanıyor.
Birden fazla karakter içeren karmaşık sahneler oluşturun
Sora, bu verileri öğrenerek birden fazla karakter, belirli davranış türleri ve ön plandaki nesne ve arka plan hakkında kesin ayrıntılar içeren karmaşık sahneler oluşturabiliyor. Gerçek dünya anlayışına dayanarak, daha gerçekçi bir temsil için kullanıcının isteklerinin ötesinde ayrıntılar videoya doğal olarak eklenir.
Sora tarafından oluşturulan bir dizi örnek video: kamuya açıkve bunların oluşturulmasına izin veren istemler. Burada, kullanılan istemlerin altyazılarını içeren bazı video oluşturma örnekleri verilmiştir.
Bu videoyu oluşturmak için seçilen istem şudur: Zarif bir kadın, parlak neon ışıklar ve animasyonlu sokak tabelalarıyla dolu bir Tokyo caddesinde yürüyor. Siyah deri bir ceket, uzun kırmızı bir elbise, siyah çizmeler ve siyah bir çanta giyiyor. Güneş gözlüğü ve kırmızı ruj takıyor. Kendine güvenerek ve rahatlayarak yürüyor. Sokak ıslak ve yansıtıcı olduğundan renkli ışıklar ayna etkisi yaratıyor. Birçok yaya yürüyor.
Komut: Beyaz ve turuncu renkli bir tekir kedinin, sanki bir şeyi kovalıyormuş gibi, yoğun bir bahçede mutlu bir şekilde koştuğu görülüyor. İleriye doğru koşarken gözleri geniş ve mutlu; yürürken dalları, çiçekleri ve yaprakları tarıyor. Yol, tüm bitkilerin arasından geçtiği için dardır. Sahne, kediyi yakından takip ederek yer seviyesinde bir açıdan yakalanır ve böylece alçak ve samimi bir perspektif elde edilir. Görüntü, sıcak tonları ve grenli dokusuyla sinematiktir. Yapraklar ve bitkiler arasında yayılan gün ışığı, kedinin turuncu kürkünü vurgulayan sıcak bir kontrast yaratır. Görüntü, sığ alan derinliğiyle net ve keskindir.
Bu istem şaşırtıcı derecede basittir: İşçiler, ekipmanlar ve ağır makinelerle dolu bir inşaat sahasının kuşbakışı görünümü.
OpenAI, Sora’nın henüz eksiksiz bir ürün olmadığını açıklıyor. Karmaşık sahnelerin fiziksel temsilini simüle etmede zorluk yaşayabilir.
Google’la rekabet
Bir örnek ? Bir çerezi ısırırsanız yapay zeka, çerez üzerindeki ısırık izlerini tasvir edemeyebilir. Ayrıca sol ve sağ tarafların yanlış temsil edilmesi gibi mekansal ayrıntıların karıştırılması riski de vardır.
OpenAI, “Sora’nın kamuya sunulmadan önce kullanımının güvenli olmasını sağlamak için önemli önlemler alıyoruz” dedi ve “modeli, önyargı ve nefret söylemiyle mücadelede uzmanlardan oluşan bir Kırmızı Ekip ile test ediyoruz.
Şirket ayrıca yanıltıcı içeriği tespit etmek amacıyla Sora tarafından oluşturulan videoları tespit edecek bir araç da geliştiriyor. Bu üretken model bir OpenAI ürününde uygulandığında şirket bunu uygulamayı planlıyor. C2PA meta verileri video geçmişi hakkında bilgi sağlar.
“Modeli yaratıcı profesyonellere mümkün olduğunca faydalı olacak şekilde nasıl geliştirebileceğimizi araştırıyoruz ve bu amaçla, çok sayıda görsel sanatçının, tasarımcının ve film yapımcısının fikirlerini almaları için araca erişim sağlıyoruz.”
Ocak ayında Google, metin ve görsellerden oldukça gerçekçi videolar üreten bir yapay zeka modeli olan Lumiere’yi duyurdu.
Kaynak : “ZDNetJaponya”