OpenAI ekibinden araştırmacılar, mevcut modellerden 50 kat daha hızlı video çekimi oluşturabilen yeni bir sürekli tutarlılık modeli (sCM) tanıttı. Bu gelişme, arXiv ön baskı sunucusunda yayınlanan bir makalede sunuldu ve şirketin web sitesinde yer alan bir makalede anlatıldı.
Cheng Lu ve Yang Song tarafından geliştirilen yeni model, yapay zeka uygulamalarını eğitmek için yayılma yöntemlerini kullanan bir tür değişken üretken modeldir. Bu tür modeller tipik olarak üç ana bileşeni içerir: ileri ve geri süreçler ve bir örnekleme prosedürü. Video ve resim gibi görsel ürünler oluşturmak için yaygın olarak kullanılırlar ve ayrıca ses üretimi gibi diğer alanlarda da kullanılırlar.
Geleneksel yayılma modelleri, nihai çıktıyı oluşturmak için yüzlerce adım gerektirir ve bu da birkaç dakika sürer. Bunun aksine, Lu ve Song’un yeni modeli tüm işi yalnızca iki adımda gerçekleştiriyor ve kaliteden ödün vermeden video oluşturma süresini radikal bir şekilde azaltıyor.
Yeni model, 1,5 milyardan fazla parametre kullanıyor ve tek bir A100 GPU’ya sahip bir bilgisayarda saniyeden çok daha kısa bir sürede video oluşturabiliyor. Bu, mevcut modellerden yaklaşık 50 kat daha hızlıdır. Araştırmacılar, kendi modellerinin diğer modellere göre çok daha az bilgi işlem gücü gerektirdiğini ve bunun da yapay zeka uygulamaları için kalıcı bir zorluk olduğunu vurguluyor.
Yeni model, sonuçları halihazırda kullanımda olanlar ve diğer ekipler tarafından geliştirilenler de dahil olmak üzere diğer modellerle karşılaştırmak için zaten karşılaştırıldı.
“Yeni modelimiz, üretken yapay zeka alanında ileriye doğru atılmış önemli bir adımı temsil ediyor. Cheng Lu ve Yang Song, bunun, gerçek zamanlı olarak çalışabilen yapay zekaya dayalı gerçek hayat uygulamaları oluşturmak için yeni fırsatlar yaratacağına inanıyoruz” dedi.
Bu gelişme, video, görüntü ve ses oluşturmanın yanı sıra genel olarak yapay zeka uygulamaları da dahil olmak üzere çeşitli alanlar için önemli umut vaat ediyor. Hızlı video üretimi, film prodüksiyonu, reklamcılık ve eğitim gibi alanlarda faydalı olabilir. Ek olarak, modeli çalıştırmak için gereken bilgi işlem gücünün azaltılması, modeli daha geniş bir kullanıcı kitlesi için daha erişilebilir hale getirebilir.