
Alibaba Çarşamba günü bir dizi yapay zeka (AI) video üretim modelleri yayınladı. WAN 2.1 olarak adlandırılan bunlar, hem akademik hem de ticari amaçlar için kullanılabilecek açık kaynaklı modellerdir. Çin e-ticaret devi modelleri çeşitli parametre tabanlı varyantlarda yayınladı. Şirketin WAN ekibi tarafından geliştirilen bu modeller ilk olarak Ocak ayında tanıtıldı ve şirket WAN 2.1’in son derece gerçekçi videolar üretebileceğini iddia etti. Şu anda, bu modeller AI ve Makine Öğrenimi (ML) Hub Hugging Yüzünde barındırılıyor.
Alibaba WAN 2.1 video üretim modellerini tanıttı
Yeni Alibaba Video AI modelleri, Alibaba’nın Wan ekibinin sarılma yüzünde barındırılıyor sayfa. Model sayfaları ayrıca WAN 2.1 Büyük Dil Modelleri (LLMS) paketini de detaylandırıyor. Toplamda dört model vardır-T2V-1.3B, T2V-14B, I2V-14B-720p ve I2V-14B-480P. T2V, metin-Video için kısadır, I2V ise görüntüden Video anlamına gelir.
Araştırmacılar, en küçük varyant WAN 2.1 T2V-1.3B’nin 8.19GB VRAM gibi az olan tüketici sınıfı GPU’da çalıştırılabileceğini iddia ediyorlar. Yazı uyarınca, AI modeli yaklaşık dört dakikada bir NVIDIA RTX 4090 kullanarak 480p çözünürlükle beş saniyelik bir video oluşturabilir.
WAN 2.1 paketi video üretimini hedeflerken, görüntü oluşturma, video-eaudio üretimi ve video düzenleme gibi diğer işlevleri de gerçekleştirebilirler. Bununla birlikte, şu anda açık kaynaklı modeller bu gelişmiş görevleri yapamaz. Video oluşturma için, Çin ve İngilizce dillerinde metin istemlerini ve görüntü girdilerini kabul eder.
Mimariye gelen araştırmacılar, WAN 2.1 modellerinin bir difüzyon transformatör mimarisi kullanılarak tasarlandığını ortaya koydu. Bununla birlikte, şirket temel mimariyi yeni varyasyonel otomatik kodlayıcılar (VAE), eğitim stratejileri ve daha fazlası ile yeniledi.
En önemlisi, AI modelleri Wan-vae olarak adlandırılan yeni bir 3D nedensel VAE mimarisi kullanıyor. Uzamsal sıkıştırmayı iyileştirir ve bellek kullanımını azaltır. Otomatik kodlayıcı, tarihsel zamansal bilgileri kaybetmeden sınırsız uzunlukta 1080p çözünürlüklü videoları kodlayabilir ve kodlayabilir. Bu, tutarlı video üretimini sağlar.
Dahili testlere dayanarak şirket, WAN 2.1 modellerinin Openai’nin Sora AI modelinin tutarlılık, sahne üretim kalitesi, tek nesne doğruluğu ve mekansal konumlandırma konusunda daha iyi performans gösterdiğini iddia etti.
Bu modeller Apache 2.0 lisansı altında mevcuttur. Akademik ve araştırma amacıyla sınırsız kullanıma izin verirken, ticari kullanım birden fazla kısıtlama ile birlikte gelir.

