OpenAI geçtiğimiz hafta, gerçekçi aktörler ve diğer hareketli parçalarla tamamlanan video oluşturmak için metin girişi kullanabilen üretken AI (genAI) platformu için yeni bir yeteneği açıkladı.

Yeni genAI modeli, Sora denir“görsel kaliteyi ve kullanıcının isteğine bağlılığı korurken”, birden fazla karakter, belirli hareket türleri ve konu ve arka planın doğru ayrıntılarını içeren karmaşık, gerçekçi hareketli sahneler oluşturabilen bir metinden videoya işlevine sahiptir.

Sora, yalnızca kullanıcının istemde ne istediğini değil, aynı zamanda bu şeylerin fiziksel dünyada nasıl var olduğunu da anlıyor.

Teknoloji fütüristi ve iş ve teknoloji danışmanı Bernard Marr’a göre, teknoloji temel olarak yazılı açıklamaları video içeriğine dönüştürüyor, metin girdisini anlayan ve ilgili görsel ve işitsel öğeleri üreten yapay zeka modellerinden yararlanıyor.

Marr, “Bu süreç, metni yorumlayabilen ve açıklanan sahneleri, eylemleri ve diyalogları yansıtan videoları sentezleyebilen derin öğrenme algoritmalarını içeriyor” dedi.

Marr’a göre, Google Gemini gibi diğer sağlayıcıların sunduğu yapay zeka motorları için yeni bir yetenek olmasa da Sora’nın etkisinin derin olması bekleniyor.

Google Lumieres stilizasyonu Google

Video düzenleme için Google’ın Lumiere kullanıma hazır metin tabanlı görüntü düzenleme yöntemleri kullanılabilir.

Tüm gelişmiş genAI teknolojileri gibi Sora’nın etkisinin de içerik oluşturmayı yeniden şekillendirmeye, hikaye anlatımını geliştirmeye ve video prodüksiyonunu demokratikleştirmeye yardımcı olacağını söyledi.

Marr, “Metinden videoya dönüştürme yetenekleri, sürükleyici öğrenme materyalleri oluşturabilecekleri eğitim, ilgi çekici içerik oluşturmak için pazarlama ve hızlı prototip oluşturma ve hikaye anlatımı için eğlence gibi çeşitli alanlarda büyük bir potansiyel taşıyor” dedi.

Ancak Marr, yapay zeka modellerinin metinsel açıklamaları tam teşekküllü videolara çevirme yeteneğinin, aynı zamanda kötüye kullanıma karşı sıkı etik değerlendirmelere ve önlemlere duyulan ihtiyacın da altını çizdiği konusunda uyardı.

Marr, “Metinden videoya teknolojisinin ortaya çıkışı, özellikle telif hakkıyla korunan çalışmaları yakından yansıtabilecek içerik üretme kapasitesine sahip olması nedeniyle, telif hakkı ihlaliyle ilgili karmaşık sorunları da beraberinde getiriyor” dedi. telif hakkı endişelerinin nasıl çözüleceğini kesin olarak belirtmeyi erken hale getiriyor.”

Marr, potansiyel olarak daha fazla endişe verici olanın, teknolojinin son derece ikna edici deepfake’ler üretme, ciddi etik ve gizlilik sorunlarına yol açma, yakın inceleme ve düzenleme ihtiyacının altını çizme yeteneği olduğunu söyledi.

Kurucusu ve baş araştırmacısı Dan Faggella Emerj Yapay Zeka, beş yıl önce Birleşmiş Milletler’de derin sahtekarlıklar hakkında bir sunum yapmıştı. O dönemde derin sahtekarlıklarla ilgili uyarılara rağmen “insanların inanmak istediklerine inanmak isteyeceklerini” vurguladı.

Ancak daha büyük bir düşünce var: Yakında insanlar, bir kulaklığa bağlanıp bir yapay zeka modeline rahatlama, mizah, aksiyon gibi duygusal ihtiyaçları karşılamak için benzersiz bir dünya yaratmasını söyleyebilecekleri gen yapay zeka dünyalarında yaşayabilecekler. o kullanıcı için özel olarak programlı olarak oluşturulmuştur.

“Ve makinenin yapabileceği şey benim için görsel, işitsel ve en sonunda da dokunsal deneyimler yaratmak olacak. [previous experiences] kulaklığı takıyorum,” dedi Faggella. “Bunu politika açısından düşünmemiz gerekiyor; bu kaçışın ne kadarına izin veriyoruz?”

Metinden videoya modeller aynı zamanda insanların üretken olmalarına, onları eğitmelerine ve en önemli işlerine odaklanmalarını sağlamalarına yardımcı olmak için yapay zeka deneyimlerini çağrıştıran uygulamalar da oluşturabilir. “Belki onları harika bir satış elemanı olmaları için eğitin, belki harika kod yazmalarına yardımcı olun ve şu anda yapabileceklerinden çok daha fazla kodlama yapmalarına yardımcı olun” dedi.

Hem OpenAI’nin Sora’sı hem de Google’ın Gemini 1.5’i çok modlu yapay zeka modeli şimdilik dahili araştırma projeleri yalnızca belirli bir üçüncü taraf akademisyenlere ve teknolojiyi test eden diğer kişilere sunuluyor.

OpenAI’nin popüler ChatGPT’sinden farklı olarak Google, kullanıcıların daha doğru yanıtlar almak için sorgu motoruna çok daha büyük miktarda bilgi besleyebileceğini söyledi.

Sora ve Gemini 1.5 şu anda dahili araştırma projeleri olsa da videolar, fotoğraflar, gif’ler ve ilgili araştırma makaleleri de dahil olmak üzere gerçek örnekleri ve ayrıntılı bilgileri sergiliyorlar.

Google’ın Gemini çok modlu yapay zeka motorunun yanı sıra Sora’dan önce, Meta’nın da dahil olduğu çeşitli metinden videoya modeller vardı. EmuPist Gen-2ve Kararlılık Yapay Zekası Kararlı Video Dağıtımı.

kararlı yayılma grafiği Kararlı Difüzyon/Wikipedia

Kararlı Difüzyon tarafından kullanılan gürültü giderme işlemi. Model, yapılandırılmış bir adım sayısına ulaşılana kadar rastgele gürültüyü yinelemeli olarak temizleyerek görüntüler üretir; dikkat mekanizmasıyla birlikte kavramlar üzerinde önceden eğitilmiş bir CLIP metin kodlayıcı tarafından yönlendirilir ve eğitilen kavramın temsilini gösteren bir görüntü oluşturulur.

Google’ın, bir sözcünün “video oluşturma modellerinde en son teknoloji” dediği şeyi geliştiren iki eşzamanlı araştırma projesi var. Bu projeler Lumiere Ve VideoŞair.

Bu ayın başında piyasaya sürülen Lumiere, Google’ın daha gelişmiş video oluşturma teknolojisidir; Stable Video Diffusion gibi rakiplerin saniyede 25 karesine kıyasla saniyede 80 kare sunuyor.

Marr, “Bilgiyi işlemek ve görevleri otomatikleştirmek için tasarlanan Gemini, baştan itibaren modalitelerin kusursuz bir entegrasyonunu sunuyor ve potansiyel olarak onu basit, görev odaklı bir deneyim arayan kullanıcılar için daha sezgisel hale getiriyor” dedi. “Öte yandan, GPT-4’ün katmanlama yaklaşımı, yeteneklerin zaman içinde daha ayrıntılı bir şekilde geliştirilmesine olanak tanıyarak, konuşma becerilerinde ve içerik üretiminde esneklik ve derinlik sağlıyor.”

Bire bir karşılaştırmada Sora, Google’dan daha güçlü görünüyor video oluşturma modelleri. Google’ın Lumiere’si 512×512 piksel çözünürlüğünde video üretebilirken Sora, 1920×1080 piksele kadar çözünürlüklere veya HD kalitesine ulaştığını iddia ediyor.

Lumiere’nin videolarının uzunluğu yaklaşık 5 saniyeyle sınırlıdır; Sora’nın videoları bir dakikaya kadar uzayabilir.

Ek olarak Lumiere birden fazla çekimden oluşan videolar yapamazken Sora bunu yapabilir. Diğer modeller gibi Sora’nın da görüntülerden veya diğer videolardan video oluşturma, farklı videolardan öğeleri birleştirme ve videoları zaman içinde genişletme gibi video düzenleme görevlerini gerçekleştirebildiği bildiriliyor.

Marr, “OpenAI’nin Sora’sı ile Runway AI gibi yeni girişimler arasındaki rekabette, olgunluk, güvenilirlik ve ölçeklenebilirlik açısından avantajlar sunabilir” dedi. “Yeni girişimler genellikle yenilikçi yaklaşımlar ve çeviklik getirirken, Microsoft gibi şirketlerden gelen büyük fonlarla OpenAI, hızla yetişebilir ve potansiyel olarak geçebilir.”

Telif Hakkı © 2024 IDG Communications, Inc.



genel-12