ChatGPT’nin arkasındaki şirket olan OpenAI, perşembe günü ilk yapay zeka (AI) destekli metinden videoya dönüştürme modeli Sora’yı tanıttı. Şirket, 60 saniyeye kadar uzunlukta videolar oluşturabileceğini iddia ediyor. Bu, geçen ay tanıtılan Google’ın Lumiere modeli de dahil olmak üzere segmentteki rakiplerinden daha uzun. Sora şu anda kırmızı ekip üyelerine, şirketlerin yazılımlarını geliştirmelerine yardımcı olmak için yazılımları kapsamlı bir şekilde test eden siber güvenlik uzmanlarına ve bazı içerik oluşturuculara açıktır. AI firması ayrıca, model bir OpenAI ürününde konuşlandırıldıktan sonra gelecekte Coalition for Content Provenance and Authenticity (C2PA) meta verilerini de dahil etmeyi planlıyor.
AI video oluşturucunun duyurusu postalamak Şirket, X’te (eski adıyla Twitter olarak biliniyordu) şunları söyledi: “Sora, son derece ayrıntılı sahneler, karmaşık kamera hareketleri ve canlı duygulara sahip birden fazla karakter içeren 60 saniyeye kadar videolar oluşturabilir.” İlginç bir şekilde, oluşturduğunu iddia ettiği videonun uzunluğu rakiplerinin sunduğundan on kat daha fazla. Google’ın Lumiere’si 5 saniye uzunluğunda videolar oluşturabilirken Runway AI ve Pika 1.0 sırasıyla 4 saniye ve 3 saniye uzunluğunda videolar oluşturabiliyor.
Komut istemi: “Kırmızı yünlü örme motosiklet kaskı takan 30 yaşındaki uzay adamının maceralarını, mavi gökyüzünü, tuzlu çölü, sinema tarzını, 35mm filme çekilmiş, canlı renkleri içeren bir film fragmanı.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) 15 Şubat 2024
OpenAI ve CEO Sam Altman’ın X hesabı da Sora tarafından oluşturulan birden fazla videoyu ve bunları oluşturmak için kullanılan komutları paylaştı. Ortaya çıkan videolar kesintisiz hareketlerle son derece ayrıntılı görünüyor; bu, piyasadaki diğer video oluşturucuların bir şekilde uğraştığı bir şey. Şirkete göre birden fazla karakter, birden fazla kamera açısı, belirli hareket türleri ve konu ve arka planın doğru ayrıntılarıyla karmaşık sahneler oluşturulabiliyor. Bu mümkündür çünkü metinden videoya modeli hem bilgi istemini hem de “bu şeylerin fiziksel dünyada nasıl var olduğunu” kullanır.
Sora, esasen GPT modellerine benzer bir transformatör mimarisi kullanan bir difüzyon modelidir. Benzer şekilde, tükettiği ve ürettiği veriler, yine metin oluşturma modellerindeki belirteçlere benzeyen yamalar adı verilen bir terimle temsil edilir. Yamalar, şirkete göre küçük parçalar halinde paketlenmiş video ve görsel koleksiyonlarıdır. Bu görsel verileri kullanmak, OpenAI’nin video oluşturma modelini farklı süreler, çözünürlükler ve en boy oranlarında eğitmesine olanak sağladı. Sora, metinden videoya dönüştürmenin yanı sıra hareketsiz bir görüntü alıp ondan bir video da oluşturabilir.
Ancak kusurları da yok değil. OpenAI kendi açıklamasında belirtti İnternet sitesi, “Mevcut modelin zayıf yönleri var. Karmaşık bir sahnenin fiziğini doğru bir şekilde simüle etmekte zorlanabilir ve belirli neden-sonuç örneklerini anlayamayabilir. Örneğin bir kişi kurabiyeden bir ısırık alabilir ama daha sonra kurabiyede ısırık izi kalmayabilir.”
Komut: “Animasyon sahnesinde, eriyen kırmızı bir mumun yanında diz çökmüş kısa tüylü bir canavarın yakın çekimi yer alıyor. Sanat stili 3 boyutlu ve gerçekçi olup, aydınlatma ve dokuya odaklanılmıştır. Canavar aleve bakarken, resmin havası merak ve merak dolu… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) 15 Şubat 2024
Yapay zeka aracının deepfake veya diğer zararlı içerik oluşturmak için kullanılmamasını sağlamak amacıyla şirket, yanıltıcı içeriği tespit etmeye yardımcı olacak araçlar geliştiriyor. Ayrıca yakın zamanda DALL-E 3 modeli için uygulamayı benimsedikten sonra, oluşturulan videolarda C2PA meta verilerini kullanmayı planlıyor. Ayrıca modeli geliştirmek için kırmızı ekip üyeleriyle, özellikle de yanlış bilgi, nefret dolu içerik ve önyargı alanlarındaki alan uzmanlarıyla birlikte çalışıyor.
Şu anda ürün hakkında geri bildirim almak yalnızca kırmızı takım üyelerine ve az sayıda görsel sanatçıya, tasarımcıya ve film yapımcısına açıktır.