Çin’deki bir laboratuvar bugüne kadarki en güçlü “açık” yapay zeka modellerinden birini yarattı.
Model, DeepSeek V3AI firması DeepSeek tarafından geliştirildi ve geliştiricilerin ticari uygulamalar da dahil olmak üzere çoğu uygulama için indirmesine ve değiştirmesine olanak tanıyan izin verilen bir lisans altında Çarşamba günü piyasaya sürüldü.
DeepSeek V3, açıklayıcı bir bilgi isteminden kodlama, çeviri ve makale ve e-posta yazma gibi çeşitli metin tabanlı iş yüklerini ve görevleri yerine getirebilir.
DeepSeek’in dahili karşılaştırma testine göre DeepSeek V3, hem indirilebilir, “açık” olarak mevcut modellerden hem de yalnızca bir API aracılığıyla erişilebilen “kapalı” AI modellerinden daha iyi performans gösteriyor. Programlama yarışmalarına yönelik bir platform olan Codeforces’ta düzenlenen kodlama yarışmalarının bir alt kümesinde DeepSeek, Meta’nın Llama 3.1 405B, OpenAI’nin GPT-4o ve Alibaba’nın Qwen 2.5 72B’si de dahil olmak üzere diğer modellerden daha iyi performans gösteriyor.
DeepSeek V3 ayrıca, diğer şeylerin yanı sıra, bir modelin mevcut koda entegre olan yeni kodu başarılı bir şekilde yazıp yazamayacağını ölçmek için tasarlanmış bir test olan Aider Polyglot’taki rekabeti de eziyor.
DeepSeek-V3!
60 jeton/saniye (V2’den 3 kat daha hızlı!)
API uyumluluğu bozulmamış
Tamamen açık kaynaklı modeller ve makaleler
671B MoE parametreleri
37B etkinleştirilen parametreler
14,8T yüksek kaliteli jetonlarla eğitildiNeredeyse tüm kıyaslamalarda Llama 3.1 405b’yi geçiyor https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf
— Chubby♨️ (@kimmonismus) 26 Aralık 2024
DeepSeek, DeepSeek V3’ün 14,8 trilyon tokenden oluşan bir veri kümesi üzerinde eğitildiğini iddia ediyor. Veri biliminde jetonlar ham veri parçalarını temsil etmek için kullanılır; 1 milyon jeton yaklaşık 750.000 kelimeye eşittir.
Devasa olan yalnızca eğitim seti değil. DeepSeek V3 devasa bir boyuta sahiptir: 685 milyar parametre. (Parametreler, modellerin tahmin veya karar vermek için kullandığı dahili değişkenlerdir.) Bu, 405 milyar parametreye sahip olan Llama 3.1 405B’nin yaklaşık 1,6 katı büyüklüğündedir.
Parametre sayısı sıklıkla (ama her zaman değil) beceriyle ilişkilidir; Daha fazla parametreye sahip modeller, daha az parametreye sahip modellerden daha iyi performans gösterme eğilimindedir. Ancak büyük modellerin çalışması için daha güçlü donanımlar da gerekir. DeepSeek V3’ün optimize edilmemiş bir sürümünün, soruları makul hızlarda yanıtlamak için bir grup üst düzey GPU’ya ihtiyacı olacaktır.
DeepSeek V3 en pratik model olmasa da bazı açılardan bir başarıdır. DeepSeek, modeli Nvidia H800 GPU’lardan (Çinli şirketlerin yakın zamanda kullandığı GPU’lar) oluşan bir veri merkezini kullanarak eğitmeyi başardı. sınırlı ABD Ticaret Bakanlığı tarafından tedarikten. Şirket ayrıca DeepSeek V3’ü eğitmek için yalnızca 5,5 milyon dolar harcadığını iddia ediyor; bu, OpenAI’nin GPT-4 gibi modellerin geliştirme maliyetinin çok küçük bir kısmı.
Dezavantajı ise modelin siyasi görüşlerinin biraz filtrelenmiş olmasıdır. Örneğin DeepSeek V3’e Tiananmen Meydanı hakkında soru sorun, cevap vermeyecektir.
DeepSeek bir Çin şirketi olduğundan aşağıdaki şartlara tabidir: kıyaslama Modellerinin yanıtlarının “temel sosyalist değerleri içermesini” sağlamak için Çin’in internet düzenleyicisi tarafından. Birçok Çin yapay zeka sistemleri, düzenleyicilerin öfkesini artırabilecek spekülasyonlar gibi konulara yanıt vermeyi reddediyor. Xi Jinping Rejim.
Yakın zamanda OpenAI’nin o1 “akıl yürütme” modeline bir yanıt olan DeepSeek-R1’i tanıtan DeepSeek, meraklı bir organizasyon. Ticaret kararlarını bilgilendirmek için yapay zekayı kullanan Çinli bir niceliksel riskten korunma fonu olan High-Flyer Capital Management tarafından desteklenmektedir.
DeepSeek’in modelleri ByteDance, Baidu ve Alibaba gibi rakipleri bazı modellerin kullanım fiyatlarını düşürmeye, bazılarını ise tamamen ücretsiz yapmaya zorladı.
High-Flyer, model eğitimi için kendi sunucu kümelerini oluşturur; bunların en yenilerinden biri bildirildiğine göre 10.000 Nvidia A100 GPU’ya sahip ve maliyeti 1 milyar yen (~138 milyon dolar). Bilgisayar bilimi mezunu Liang Wenfeng tarafından kurulan High-Flyer, DeepSeek organizasyonu aracılığıyla “süper akıllı” yapay zekaya ulaşmayı hedefliyor.
bir röportaj Bu yılın başlarında Liang, açık kaynak kullanımını “kültürel bir eylem” olarak tanımladı ve OpenAI gibi kapalı kaynak yapay zekayı “geçici” bir hendek olarak nitelendirdi. “OpenAI’nin kapalı kaynak yaklaşımı bile diğerlerinin yetişmesini engellemedi” diye belirtti.
Aslında.

