Perşembe günü Alibaba Cloud, en son büyük dil modeli (LLM), QWEN2.5-32B üzerine inşa edilmiş kompakt bir akıl yürütme modeli olan QWQ-32B’yi piyasaya sürdü, bir tane, Çin rakibi Deepseek ve Openai’nin O1’i de dahil olmak üzere diğer büyük son teknoloji modellerle karşılaştırılabilir sadece 32 milyar parametre ile karşılaştırılabilir.
A’ya göre serbest bırakmak Alibaba’dan, “QWQ-32B’nin performansı, geniş dünya bilgisi üzerinde önceden eğitilmiş olan Qwen2.5-32b gibi sağlam bir temel modeline uygulandığında, modelin arkasındaki temel teknik olan takviye öğrenme gücünü (RL) vurgulamaktadır. Sürekli RL ölçeklendirmesinden yararlanarak, QWQ-32B, matematiksel akıl yürütme ve kodlama yeterliliğinde önemli gelişmeler göstermektedir. ”
Aws tanımlar RL olarak “yazılımı en uygun sonuçları elde etmek için kararlar almak için eğiten ve insanların hedeflerine ulaşmak için kullandıkları deneme-yanılma öğrenme sürecini taklit eden bir makine öğrenme tekniği. Hedefinize doğru çalışan yazılım eylemleri güçlendirilirken, hedeften uzaklaşan eylemler göz ardı edilir. ”


