Alibaba, Openai’nin Sora’sından daha iyi performans gösterdiğini iddia eden AI video üretim modellerinin açık kaynaklı WAN 2.1 paketini yayınladı

Son güncelleme: 27 Şubat 2025 14:55

Alibaba Çarşamba günü bir dizi yapay zeka (AI) video üretim modelleri yayınladı. WAN 2.1 olarak adlandırılan bunlar, hem akademik hem de ticari amaçlar için kullanılabilecek açık kaynaklı modellerdir. Çin e-ticaret devi modelleri çeşitli parametre tabanlı varyantlarda yayınladı. Şirketin WAN ekibi tarafından geliştirilen bu modeller ilk olarak Ocak ayında tanıtıldı ve şirket WAN 2.1’in son derece gerçekçi videolar üretebileceğini iddia etti. Şu anda, bu modeller AI ve Makine Öğrenimi (ML) Hub Hugging Yüzünde barındırılıyor.

Alibaba WAN 2.1 video üretim modellerini tanıttı

Yeni Alibaba Video AI modelleri, Alibaba’nın Wan ekibinin sarılma yüzünde barındırılıyor sayfa. Model sayfaları ayrıca WAN 2.1 Büyük Dil Modelleri (LLMS) paketini de detaylandırıyor. Toplamda dört model vardır-T2V-1.3B, T2V-14B, I2V-14B-720p ve I2V-14B-480P. T2V, metin-Video için kısadır, I2V ise görüntüden Video anlamına gelir.

Araştırmacılar, en küçük varyant WAN 2.1 T2V-1.3B’nin 8.19GB VRAM gibi az olan tüketici sınıfı GPU’da çalıştırılabileceğini iddia ediyorlar. Yazı uyarınca, AI modeli yaklaşık dört dakikada bir NVIDIA RTX 4090 kullanarak 480p çözünürlükle beş saniyelik bir video oluşturabilir.

WAN 2.1 paketi video üretimini hedeflerken, görüntü oluşturma, video-eaudio üretimi ve video düzenleme gibi diğer işlevleri de gerçekleştirebilirler. Bununla birlikte, şu anda açık kaynaklı modeller bu gelişmiş görevleri yapamaz. Video oluşturma için, Çin ve İngilizce dillerinde metin istemlerini ve görüntü girdilerini kabul eder.

Mimariye gelen araştırmacılar, WAN 2.1 modellerinin bir difüzyon transformatör mimarisi kullanılarak tasarlandığını ortaya koydu. Bununla birlikte, şirket temel mimariyi yeni varyasyonel otomatik kodlayıcılar (VAE), eğitim stratejileri ve daha fazlası ile yeniledi.

En önemlisi, AI modelleri Wan-vae olarak adlandırılan yeni bir 3D nedensel VAE mimarisi kullanıyor. Uzamsal sıkıştırmayı iyileştirir ve bellek kullanımını azaltır. Otomatik kodlayıcı, tarihsel zamansal bilgileri kaybetmeden sınırsız uzunlukta 1080p çözünürlüklü videoları kodlayabilir ve kodlayabilir. Bu, tutarlı video üretimini sağlar.

Dahili testlere dayanarak şirket, WAN 2.1 modellerinin Openai’nin Sora AI modelinin tutarlılık, sahne üretim kalitesi, tek nesne doğruluğu ve mekansal konumlandırma konusunda daha iyi performans gösterdiğini iddia etti.

Bu modeller Apache 2.0 lisansı altında mevcuttur. Akademik ve araştırma amacıyla sınırsız kullanıma izin verirken, ticari kullanım birden fazla kısıtlama ile birlikte gelir.

genel-8

Bu Makaleyi Paylaş

Önceki Makale Bilgisayar korsanları sizi izlemenin yeni bir yolunu bulmuş olabilir ve bu Apple Kususu bunun merkezinde

Sonraki Makale

Star Wars Outlaws Güncellemesi 1.005.002 Fotoğraf Modu Çöküşünü Düzeltiyor

Alibaba, Openai’nin Sora’sından daha iyi performans gösterdiğini iddia eden AI video üretim modellerinin açık kaynaklı WAN 2.1 paketini yayınladı

Alibaba WAN 2.1 video üretim modellerini tanıttı

Sanal Medya

Son Eklenenler

SAP, NetWeaver ve Commerce Cloud’da Acil Kritik Açıkları Giderdi

Riot’tan Yeni Karakter: League of Legends’ın Locke’u Tanıtıldı

Donanım Tutkunları için Beklenen Secretlab Atlas İncelemesi

Acil: Veeam Yedekleme Açığıyla Alan Kullanıcıları Uzaktan Kod Çalıştırabilir

iOS 27’nin Sahnede Görmediğimiz Özellikleri ile Tanışın

Nintendo cesareti elden bırakıyor

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer