Alibaba’nın Qwen ekibi Çarşamba günü Qwen 2.5 ailesinde yeni bir yapay zeka (AI) modeli yayınladı. Qwen 2.5 Omni olarak adlandırılan, amiral gemisi uçtan uca multimodal bir modeldir. Şirket, gerçek zamanlı metin ve doğal konuşma yanıtları oluştururken metin, görüntüler, ses ve videolar dahil olmak üzere çok çeşitli girdileri işleyebileceğini iddia ediyor. Farklı beceri seti nedeniyle maliyet etkin AI temsilcilerinin inşa edilmesi ve yerleştirilmesinin sağlandığı söylenir. Alibaba ayrıca Qwen 2.5 Omni AI modeli için yeni bir “düşünür konuşması” mimarisi kullandı.
Qwen 2.5 Omni AI modeli yayınlandı
Bir Blog yazısıQwen ekibi, yedi milyar parametreli bir sistem olan yeni Qwen 2.5 Omni AI modelini detaylandırdı. Bu omnimodal modelin en dikkat çekici özelliği, büyük dil modelinin (LLM) sorguları cevaplamasına ve kullanıcılarla sözlü olarak insan benzeri bir şekilde etkileşime girmesine izin verecek gerçek zamanlı konuşma üretimi ve görüntülü sohbet özelliğidir. Şimdiye kadar, bu özellik yalnızca Google ve Openai’nin kapalı kaynaklı modellerinde mevcuttur. Alibaba ise teknolojiyi açık kaynakladı.
Özelliklere gelince, çıktı olarak metin, görüntüler, ses ve videoyu kabul eder. Model ayrıca gerçek zamanlı ses etkileşimleri ve görüntülü sohbetler yapabilir. Qwen ekibi, modelin ayrıca gerçek zamanlı konuşma akışı doğal bir şekilde sunacağını vurgulamaktadır. Ayrıca, uçtan uca konuşma öğretiminde gelişmiş performansla geldiği iddia edilmektedir.
Qwen ekibi, OMNI modelinin yeni bir “düşünür konuşması” mimarisi üzerine inşa edildiğini vurguladı. Düşünür bileşeni bir beyin gibi işlev görür ve modaliteler boyunca girdinin işlenmesinden ve anlaşılmasından ve metin çıktısının üretilmesinden sorumludur. Esasen ses ve görüntüyü kodlayan ve bilgi çıkarmaya yardımcı olan bir transformatör kod çözücüdür.
![]()
Qwen 2.5 Omni Benchmark
Fotoğraf kredisi: Alibaba
Öte yandan, konuşmacı bileşeni bir insan ağzı gibi çalışıyor. Düşünür bileşeni tarafından üretilen bilgileri aktarır ve konuşma akışkanlığı için akış benzeri bir çıktı üretir. Çift yollu otoregresif transformatör kod çözücü olarak tasarlanmıştır. Bu mimarinin tamamı tek bir model olarak çalışır, gerçek zamanlı metin ve konuşma üretimine izin verir, uçtan uca eğitim ve çıkarım sağlar.
Dahili testlere dayanarak, Qwen 2.5 Omni AI modelinin Omnibench’teki Gemini 1.5 Pro modelinden daha iyi performans gösterdiği söylenir. Ayrıca, tek modalite görevlerinde Qwen 2.5-VL-7B, Qwen2-Audio’dan daha iyi performans gösterir.
AI modeli artık Alibaba’nın sarılma yüzünde mevcut liste ve Github liste. Ayrıca, kullanıcılar yeni modeli Qwen Chat ve şirketin topluluk modelleri ile test edebilir.

