Çin AI Lab Deepseek bu hafta teknoloji endüstrisinin dikkatini çekiyor olabilir. Ancak en iyi yerli rakiplerinden biri olan Alibaba, boş oturmuyor.
Alibaba’nın Qwen ekibi Pazartesi piyasaya sürülmüş Bir dizi metin ve görüntü analizi görevi gerçekleştirebilen yeni bir AI modelleri olan Qwen2.5-VL ailesi. Modeller dosyaları ayrıştırabilir, videoları anlayabilir ve görüntülerdeki nesneleri sayabilir ve Openai’nin yakın zamanda başlatılan operatörünü güçlendiren modele benzer bir PC’yi kontrol edebilir.
Qwen ekibinin kıyaslama ile en iyi Qwen2.5-VL modeli, Openai’nin GPT-4O’yu, Antropic’in Claude 3.5 sonnetini ve Google’ın Gemini 2.0 flaşını bir dizi video anlayışı, matematik, belge analizi ve soru-cevap değerlendirmelerini yener.

Alibaba’da test edilebilecek olan Qwen2.5-vl Qwen sohbet uygulama ve indirmek Qwen ekibi, AI Dev Platform Hugging Face’ten grafikleri ve grafikleri analiz edebilir, faturaların ve formların taramalarından veri çıkarabilir ve çok sayıda saatlik videoları “kavrayabilir”. Qwen2.5-VL ayrıca “film ve TV dizilerinden IP’lerin yanı sıra çok çeşitli ürünler” i de tanıyabilir. takım başına – Modellerin kısmen telif hakkıyla korunan çalışmalarda eğitilmiş olabileceğini öne sürüyor.
Bir Çinli şirket tarafından geliştirilen AI olan Qwen2.5-VL, tartışacağı konularda en azından Qwen Chat. En büyük ve en yetenekli Qwen2.5-VL modelinden, Qwen2.5-VL-72B’den “Xi Jinping’in Hataları” hakkında konuşmasını istediğimde Qwen Chat bir hata mesajı attı.
Çin’in İnternet Düzenleyicisi ölçüt Ülkede “temel sosyalist değerleri somutlaştıran” yanıtlarını sağlamak için birçok model geliştirildi. Birçok Çin yapay zeka sistemleri, Tayvan’ın özerkliği gibi düzenleyicilerin öfkesini artırabilecek konulara cevap vermeyi reddediyor.
Qwen2.5-VL’nin daha ilginç özelliklerinden biri, hem PC’lerde hem de mobil cihazlarda yazılımla etkileşim kurma yeteneğidir. Hugging Face’te teknik bir lider olan Philipp Schmid tarafından X’de yayınlanan bir video, Qwen2.5-VL’nin Android için Booking.com uygulamasını başlattığını ve Chongqing’den Pekin’e bir uçuş rezervasyonu yaptığını gösterdi.
Kaçırmayın @Alibaba_qwen 2.5 VL! Tüm Deepseek hype’a rağmen, Qwen en iyi açık multimodal bıraktı! Qwen 2.5 VL, bilgisayarınızı kontrol edebilen bir görme dili modelidir. @Openai Operatör, grafiklerden yapılandırılmış bilgileri çıkarın ve daha fazlası !!
Tl; dr;
3 musunuz… pic.twitter.com/geegvdl0ti– Philipp Schmid (@_philschmid) 27 Ocak 2025
Aşağıdaki videoda, bir Qwen2.5-VL modeli, bir Linux masaüstündeki uygulamaları kontrol eder-ancak sekmeleri değiştirmenin ötesinde çok fazla şey yapmıyor gibi görünüyor. Belki de söyleyerek, Qwen’in kıyaslama, gerçek bir bilgisayar ortamını taklit etmeye çalışan bir ölçüt olan Osworld’de kötü puan alan Qwen2.5-VL’yi gösteriyor.
LMAO QWEN 2.5 VL, Openai Operatör Başını Alarak Kutudan Çıkarın Bilgisayar Kullanımı Yapabilir! 🐐 pic.twitter.com/lwmecxznsu
– Vaibhav (VB) Srivastav (@reach_vb) 27 Ocak 2025
Qwen2.5-VL serisindeki iki küçük, daha az sofistike model olan QWEN2.5-VL-3B ve QWEN2.5-VL-7B’de izin verilen bir lisans altında mevcuttur. Ancak amiral gemisi Qwen2.5-VL-72B, Alibaba’nın özel lisansı altında, bu da aylık 100 milyondan fazla aktif kullanıcıya sahip şirketlerin ve geliştiricilerin, modeli ticari olarak dağıtmadan önce Qwen/Alibaba’dan izin istemesini gerektiriyor.

