Alibaba, OpenAI'nin o1 akıl yürütme modeline 'açık' bir meydan okuyucu yayınladı - Dünyadan Güncel Teknoloji Haberleri

Yeni bir sözde “akıl yürütme” yapay zeka modeli olan QwQ-32B-Preview sahneye çıktı. OpenAI’nin o1’ine rakip olan az sayıdaki yazılımdan biri ve izin verilen bir lisans altında indirilebilen ilk yazılımdır.

Alibaba’nın Qwen ekibi tarafından geliştirilen QwQ-32B-Preview, 32,5 milyar parametre içerir ve yaklaşık 32.000 kelime uzunluğundaki istemleri dikkate alabilir; OpenAI’nin şu ana kadar yayınladığı iki akıl yürütme modeli olan o1-preview ve o1-mini’den belirli kıyaslamalarda daha iyi performans gösteriyor. (Parametreler kabaca bir modelin problem çözme becerilerine karşılık gelir ve daha fazla parametreye sahip modeller genellikle daha az parametreye sahip olanlardan daha iyi performans gösterir. OpenAI, modellerine ilişkin parametre sayısını açıklamaz.)

Alibaba’nın testlerine göre QwQ-32B-Preview, AIME ve MATH testlerinde OpenAI’nin o1 modellerini geride bırakıyor. AIME, bir modelin performansını değerlendirmek için diğer AI modellerini kullanırken MATH, sözlü problemlerden oluşan bir koleksiyondur.

QwQ-32B-Preview, “akıl yürütme” yetenekleri sayesinde mantık bulmacalarını çözebilir ve oldukça zorlu matematik sorularını yanıtlayabilir. Ama mükemmel değil. Alibaba notları bir blog yazısı modelin beklenmedik bir şekilde dil değiştirebileceğini, döngülere takılıp kalabileceğini ve “sağduyulu akıl yürütme” gerektiren görevlerde düşük performans gösterebileceğini söyledi.

Alibaba QwQ-32B-Önizleme — **Resim Kredisi:**Alibaba’nın

Çoğu yapay zekanın aksine, QwQ-32B-Preview ve diğer akıl yürütme modelleri, kendilerini etkili bir şekilde kontrol eder. Bu, normalde modelleri tökezleten bazı tuzaklardan kaçınmalarına yardımcı olur; olumsuz tarafı ise çözümlere ulaşmanın genellikle daha uzun sürmesidir. o1’e benzer şekilde, QwQ-32B-Önizleme, görevler aracılığıyla gerekçeler sunar, önceden planlama yapar ve modelin yanıtları ortaya çıkarmasına yardımcı olan bir dizi eylem gerçekleştirir.

AI geliştirme platformu Hugging Face’te çalıştırılabilen ve buradan indirilebilen QwQ-32B-Preview, belirli siyasi konuları hafife alması nedeniyle yakın zamanda piyasaya sürülen DeepSeek akıl yürütme modeline benziyor. Çinli şirketler olan Alibaba ve DeepSeek, kıyaslama Modellerinin yanıtlarının “temel sosyalist değerleri içermesini” sağlamak için Çin’in internet düzenleyicisi tarafından. Birçok Çin yapay zeka sistemleri, düzenleyicilerin öfkesini artırabilecek spekülasyonlar gibi konulara yanıt vermeyi reddediyor. Xi Jinping Rejim.

“Tayvan Çin’in bir parçası mı?” sorusuna QwQ-32B-Preview, bunun (ve aynı zamanda “devredilemez”) olduğunu yanıtladı; bu, dünyanın çoğundan farklı ama Çin’in iktidar partisinin perspektifiyle uyumlu bir perspektif. Hakkında bilgi istemleri Tiananmen Meydanıbu arada yanıt vermedi.

QwQ-32B-Preview, Apache 2.0 lisansı altında “açıkça” mevcuttur; bu, ticari uygulamalar için kullanılabileceği anlamına gelir. Ancak modelin yalnızca belirli bileşenleri piyasaya sürüldü, bu da QwQ-32B-Önizlemeyi kopyalamayı veya sistemin iç işleyişine ilişkin daha fazla bilgi elde etmeyi imkansız hale getiriyor. Yapay zeka modellerinin “açıklığı” çözülmüş bir soru değil ancak daha kapalıdan (yalnızca API erişimi) daha açıka (model, ağırlıklar, açıklanan veriler) doğru genel bir süreklilik var ve bu da ortada bir yerde kalıyor.

Akıl yürütme modellerine artan ilgi, “ölçeklendirme yasalarının” uygulanabilirliği, bir modele daha fazla veri ve bilgi işlem gücü sunmanın modelin yeteneklerini sürekli olarak artıracağına dair uzun süredir kabul gören teorilerin inceleme altına alınmasıyla ortaya çıkıyor. A telaş Basında çıkan raporların çoğu, OpenAI, Google ve Anthropic gibi büyük yapay zeka laboratuvarlarının modellerinin eskisi kadar dramatik bir şekilde gelişmediğini gösteriyor.

Bu durum yeni yapay zeka yaklaşımları, mimarileri ve geliştirme teknikleri için bir mücadeleye yol açtı; bunlardan biri de test zamanı hesaplamasıdır. Çıkarım hesaplaması olarak da bilinen test süresi hesaplaması, temel olarak modellere görevleri tamamlamak için ekstra işlem süresi sağlar ve o1 ve QwQ-32B-Preview gibi modellerin temelini oluşturur. .

OpenAI ve Çinli firmaların yanı sıra büyük laboratuvarlar da geleceğin test zamanı hesaplaması olduğuna inanıyor. The Information’ın yakın tarihli bir raporuna göre, Google sahip olmak Akıl yürütme modellerine odaklanan dahili ekibi yaklaşık 200 kişiye genişletti ve bu çabaya önemli miktarda bilgi işlem gücü ekledi.

genel-24

Alibaba, OpenAI’nin o1 akıl yürütme modeline ‘açık’ bir meydan okuyucu yayınladı

Byteknomers

By teknomers

Benzer İçerikler

Başrollerini Dia Mirza ve Mohit Raina’nın paylaştığı Kaafir Şimdi ZEE5’te Yayınlanıyor

Walmart, reklam işini büyütmeye yardımcı olmak için 2,3 milyar dolarlık Vizio’yu satın almayı tamamladı

Siber Güvenlik ve Dayanıklılık Yasası Birleşik Krallık’ı daha güvenli hale getirecek mi?

SnowRunner Güncellemesi 1.56 Kentworth DLC’sini ve Düzeltmeleri Getiriyor

1$ karşılığında Steam Destesini veya Meta Quest 3’ü kazanma şansını yakalamak için hızlı davranın

CoD: Black Ops 6 Zombies Oynanış Fragmanı, Elemental Kılıçları ve Korkunç Yeni Düşmanı Gösteriyor

NARUTO: The Symphonic Experience Kuzey Amerika Tur Tarihlerini Açıkladı

FBI’ın iOS kullanıcılarını Android’e mesaj göndermemeleri konusunda uyarmasının nedeni de bu.

Verizon müşterileri, şirketin aylık ücreti tekrar artırmasının ardından öfkeli

Tartışmasız muhteşem Galaxy S24 Ultra tarihi bir indirimin tadını çıkarıyor

Google Mesajlar güncellemesi, türünün sonuncusu olmasını istemenizi sağlayacak

Proba-3’ün beş uzay gizemi çözülmesine yardımcı olacak

Webb gözlemleri Kepler-51 ‘süper puf’ sisteminde yeni gezegen keşfetti

Dragonfly, Falcon Heavy ile Titan’a gidiyor

İlkel kara deliklerin kanıtları gezegenlerde, hatta Dünya’daki gündelik nesnelerde saklanıyor olabilir

İlginizi Çekebilir

Başrollerini Dia Mirza ve Mohit Raina’nın paylaştığı Kaafir Şimdi ZEE5’te Yayınlanıyor

iPhone’umu arabalarla takas ettim. Apple CFO’su sorunlu otomobil üreticisi Stellantis’e liderlik edecek

Walmart, reklam işini büyütmeye yardımcı olmak için 2,3 milyar dolarlık Vizio’yu satın almayı tamamladı

SpaceX’in son Starship roket testi uzay istasyonu videosunda yakalandı