
Firmanın Açık Araştırma Bölümü AI için Cohere, Salı günü yeni son teknoloji ürünü (SOTA) vizyon modellerini yayınladı. Aya Vision olarak adlandırılan yapay zeka (AI) modelleri iki parametre boyutunda mevcuttur. Şirketin en yeni sınır modelleri, özellikle multimodal görevler için mevcut büyük dil modellerinin (LLMS) farklı dillerde tutarsız performansını ele alıyor. AYA Vision modelleri 23 dilde çıktı oluşturabilir ve hem metin tabanlı hem de görüntü tabanlı görevleri gerçekleştirebilir. Ancak, görüntüler üretemez. Cohere, AI modellerini WhatsApp aracılığıyla açık kaynaklı depolarda da kullanılabilir hale getirdi.
Cohere, Aya Vision AI modellerini serbest bıraktı
Bir Blog yazısıAI firması yeni Vizyon modellerini detaylandırdı. AYA Vision 8b ve 32b parametre boyutlarında mevcuttur. Bu modeller metin oluşturabilir, metin ve görüntüleri 23 dilde çevirebilir, görüntüleri analiz edebilir ve onlar hakkındaki sorguları ve altyazı görüntülerini yanıtlayabilir. Her iki modele de Cohere’nin sarılma yüzü ile erişilebilir sayfa Ve Kaggle’da.
Ayrıca, genel kullanıcılar Cohere’nin modellerini özel bir WhatsApp sohbetiyle deneyebilir hesap BURADA erişilebilir. Şirket, AYA Vision modellerinin, insanlar hakkında daha fazla bilgi edinmek istedikleri görüntülerle veya sanat eserleriyle karşılaştıklarında örnekler için yararlı olduğunu söylüyor.
Şirketin dahili testine dayanarak, AYA Vision 8B modeli, Ayavisionbench ve M-Wildvision karşılaştırmalarındaki Qwen2.5-VL 7B, Gemini Flash 1.5 8b ve Llama 3.2 11b Vizyon modellerinden daha iyi performans gösterir. Özellikle, Ayavisionbench ölçütü de Cohere tarafından geliştirildi ve ayrıntıları kamu malı olarak paylaşıldı.
AYA Vision 32B modeline gelen şirket, aynı ölçütlerde Lama 3.2 90B Vizyon ve Qwen2-VL 72B modellerinden daha iyi performans gösterdiğini iddia etti.
Frontier performansını elde etmek için Cohere, birkaç algoritmik yeniliğin geliştirildiğini iddia etti. AYA Vision modelleri sentetik ek açıklamalarla beslendi, geliştiriciler çeviri ve yeniden ifade etme yoluyla çok dilli verileri ölçeklendirdi ve çoklu multimodal modeller ayrı adımlarla birleştirildi. Geliştiriciler, her adımda performansın önemli ölçüde iyileştiğini gözlemledi.
Özellikle, geliştiriciler Kaggle ve Hugging Face’ten AYA Vision modellerinin açık ağırlıklarına erişebilirler, ancak bu modeller Creative Commons Atıf Ticari olmayan 4.0 lisansı ile mevcuttur. Akademik ve araştırmaya dayalı kullanıma izin verir, ancak ticari kullanım durumlarını yasaklar.
Barcelona’daki Mobil Dünya Kongresi’ndeki Samsung, Xiaomi, Realme, OnePlus, Oppo ve diğer şirketlerden gelen son lansmanların ve haberlerin ayrıntıları için MWC 2025 merkezimizi ziyaret edin.

