Yeni bir sözde “akıl yürütme” yapay zeka modeli olan QwQ-32B-Preview sahneye çıktı. OpenAI’nin o1’ine rakip olan az sayıdaki yazılımdan biri ve izin verilen bir lisans altında indirilebilen ilk yazılımdır.

Alibaba’nın Qwen ekibi tarafından geliştirilen QwQ-32B-Preview, 32,5 milyar parametre içerir ve yaklaşık 32.000 kelime uzunluğundaki istemleri dikkate alabilir; OpenAI’nin şu ana kadar yayınladığı iki akıl yürütme modeli olan o1-preview ve o1-mini’den belirli kıyaslamalarda daha iyi performans gösteriyor. (Parametreler kabaca bir modelin problem çözme becerilerine karşılık gelir ve daha fazla parametreye sahip modeller genellikle daha az parametreye sahip olanlardan daha iyi performans gösterir. OpenAI, modellerine ilişkin parametre sayısını açıklamaz.)

Alibaba’nın testlerine göre QwQ-32B-Preview, AIME ve MATH testlerinde OpenAI’nin o1 modellerini geride bırakıyor. AIME, bir modelin performansını değerlendirmek için diğer AI modellerini kullanırken MATH, sözlü problemlerden oluşan bir koleksiyondur.

QwQ-32B-Preview, “akıl yürütme” yetenekleri sayesinde mantık bulmacalarını çözebilir ve oldukça zorlu matematik sorularını yanıtlayabilir. Ama mükemmel değil. Alibaba notları bir blog yazısı modelin beklenmedik bir şekilde dil değiştirebileceğini, döngülere takılıp kalabileceğini ve “sağduyulu akıl yürütme” gerektiren görevlerde düşük performans gösterebileceğini söyledi.

Alibaba QwQ-32B-Önizleme
Resim Kredisi:Alibaba’nın

Çoğu yapay zekanın aksine, QwQ-32B-Preview ve diğer akıl yürütme modelleri, kendilerini etkili bir şekilde kontrol eder. Bu, normalde modelleri tökezleten bazı tuzaklardan kaçınmalarına yardımcı olur; olumsuz tarafı ise çözümlere ulaşmanın genellikle daha uzun sürmesidir. o1’e benzer şekilde, QwQ-32B-Önizleme, görevler aracılığıyla gerekçeler sunar, önceden planlama yapar ve modelin yanıtları ortaya çıkarmasına yardımcı olan bir dizi eylem gerçekleştirir.

AI geliştirme platformu Hugging Face’te çalıştırılabilen ve buradan indirilebilen QwQ-32B-Preview, belirli siyasi konuları hafife alması nedeniyle yakın zamanda piyasaya sürülen DeepSeek akıl yürütme modeline benziyor. Çinli şirketler olan Alibaba ve DeepSeek, kıyaslama Modellerinin yanıtlarının “temel sosyalist değerleri içermesini” sağlamak için Çin’in internet düzenleyicisi tarafından. Birçok Çin yapay zeka sistemleri, düzenleyicilerin öfkesini artırabilecek spekülasyonlar gibi konulara yanıt vermeyi reddediyor. Xi Jinping Rejim.

Alibaba QwQ-32B-Önizleme
Resim Kredisi:Alibaba’nın

“Tayvan Çin’in bir parçası mı?” sorusuna QwQ-32B-Preview, bunun (ve aynı zamanda “devredilemez”) olduğunu yanıtladı; bu, dünyanın çoğundan farklı ama Çin’in iktidar partisinin perspektifiyle uyumlu bir perspektif. Hakkında bilgi istemleri Tiananmen Meydanıbu arada yanıt vermedi.

Alibaba QwQ-32B-Önizleme
Resim Kredisi:Alibaba’nın

QwQ-32B-Preview, Apache 2.0 lisansı altında “açıkça” mevcuttur; bu, ticari uygulamalar için kullanılabileceği anlamına gelir. Ancak modelin yalnızca belirli bileşenleri piyasaya sürüldü, bu da QwQ-32B-Önizlemeyi kopyalamayı veya sistemin iç işleyişine ilişkin daha fazla bilgi elde etmeyi imkansız hale getiriyor. Yapay zeka modellerinin “açıklığı” çözülmüş bir soru değil ancak daha kapalıdan (yalnızca API erişimi) daha açıka (model, ağırlıklar, açıklanan veriler) doğru genel bir süreklilik var ve bu da ortada bir yerde kalıyor.

Akıl yürütme modellerine artan ilgi, “ölçeklendirme yasalarının” uygulanabilirliği, bir modele daha fazla veri ve bilgi işlem gücü sunmanın modelin yeteneklerini sürekli olarak artıracağına dair uzun süredir kabul gören teorilerin inceleme altına alınmasıyla ortaya çıkıyor. A telaş Basında çıkan raporların çoğu, OpenAI, Google ve Anthropic gibi büyük yapay zeka laboratuvarlarının modellerinin eskisi kadar dramatik bir şekilde gelişmediğini gösteriyor.

Bu durum yeni yapay zeka yaklaşımları, mimarileri ve geliştirme teknikleri için bir mücadeleye yol açtı; bunlardan biri de test zamanı hesaplamasıdır. Çıkarım hesaplaması olarak da bilinen test süresi hesaplaması, temel olarak modellere görevleri tamamlamak için ekstra işlem süresi sağlar ve o1 ve QwQ-32B-Preview gibi modellerin temelini oluşturur. .

OpenAI ve Çinli firmaların yanı sıra büyük laboratuvarlar da geleceğin test zamanı hesaplaması olduğuna inanıyor. The Information’ın yakın tarihli bir raporuna göre, Google sahip olmak Akıl yürütme modellerine odaklanan dahili ekibi yaklaşık 200 kişiye genişletti ve bu çabaya önemli miktarda bilgi işlem gücü ekledi.



genel-24