DeepSeek'in yeni yapay zeka modeli şu ana kadarki en iyi 'açık' rakiplerden biri gibi görünüyor - Teknomers | Dünyadan Güncel Teknoloji | Oyun | Müzik | Film

Çin’deki bir laboratuvar bugüne kadarki en güçlü “açık” yapay zeka modellerinden birini yarattı.

Model, DeepSeek V3AI firması DeepSeek tarafından geliştirildi ve geliştiricilerin ticari uygulamalar da dahil olmak üzere çoğu uygulama için indirmesine ve değiştirmesine olanak tanıyan izin verilen bir lisans altında Çarşamba günü piyasaya sürüldü.

DeepSeek V3, açıklayıcı bir bilgi isteminden kodlama, çeviri ve makale ve e-posta yazma gibi çeşitli metin tabanlı iş yüklerini ve görevleri yerine getirebilir.

DeepSeek’in dahili karşılaştırma testine göre DeepSeek V3, hem indirilebilir, “açık” olarak mevcut modellerden hem de yalnızca bir API aracılığıyla erişilebilen “kapalı” AI modellerinden daha iyi performans gösteriyor. Programlama yarışmalarına yönelik bir platform olan Codeforces’ta düzenlenen kodlama yarışmalarının bir alt kümesinde DeepSeek, Meta’nın Llama 3.1 405B, OpenAI’nin GPT-4o ve Alibaba’nın Qwen 2.5 72B’si de dahil olmak üzere diğer modellerden daha iyi performans gösteriyor.

DeepSeek V3 ayrıca, diğer şeylerin yanı sıra, bir modelin mevcut koda entegre olan yeni kodu başarılı bir şekilde yazıp yazamayacağını ölçmek için tasarlanmış bir test olan Aider Polyglot’taki rekabeti de eziyor.

DeepSeek-V3!
60 jeton/saniye (V2’den 3 kat daha hızlı!)
API uyumluluğu bozulmamış
Tamamen açık kaynaklı modeller ve makaleler
671B MoE parametreleri
37B etkinleştirilen parametreler
14,8T yüksek kaliteli jetonlarla eğitildi
Neredeyse tüm kıyaslamalarda Llama 3.1 405b’yi geçiyor https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf
— Chubby♨️ (@kimmonismus) 26 Aralık 2024

DeepSeek, DeepSeek V3’ün 14,8 trilyon tokenden oluşan bir veri kümesi üzerinde eğitildiğini iddia ediyor. Veri biliminde jetonlar ham veri parçalarını temsil etmek için kullanılır; 1 milyon jeton yaklaşık 750.000 kelimeye eşittir.

Devasa olan yalnızca eğitim seti değil. DeepSeek V3 devasa bir boyuta sahiptir: 685 milyar parametre. (Parametreler, modellerin tahmin veya karar vermek için kullandığı dahili değişkenlerdir.) Bu, 405 milyar parametreye sahip olan Llama 3.1 405B’nin yaklaşık 1,6 katı büyüklüğündedir.

DeepSeek (Çin Yapay Zeka Şirketi), şaka niteliğinde bir bütçeyle (2 ay boyunca 2048 GPU, 6 milyon dolar) eğitilmiş, sınır düzeyinde bir LLM’nin açık ağırlık sürümüyle bugün her şeyin kolay görünmesini sağlıyor.
Referans olarak, bu düzeydeki yeteneğin 16K GPU’lara daha yakın kümeler gerektirmesi gerekiyor; bunlar… https://t.co/EW7q2pQ94B
— Andrej Karpathy (@karpathy) 26 Aralık 2024

Parametre sayısı sıklıkla (ama her zaman değil) beceriyle ilişkilidir; Daha fazla parametreye sahip modeller, daha az parametreye sahip modellerden daha iyi performans gösterme eğilimindedir. Ancak büyük modellerin çalışması için daha güçlü donanımlar da gerekir. DeepSeek V3’ün optimize edilmemiş bir sürümünün, soruları makul hızlarda yanıtlamak için bir grup üst düzey GPU’ya ihtiyacı olacaktır.

DeepSeek V3 en pratik model olmasa da bazı açılardan bir başarıdır. DeepSeek, modeli Nvidia H800 GPU’lardan (Çinli şirketlerin yakın zamanda kullandığı GPU’lar) oluşan bir veri merkezini kullanarak eğitmeyi başardı. sınırlı ABD Ticaret Bakanlığı tarafından tedarikten. Şirket ayrıca DeepSeek V3’ü eğitmek için yalnızca 5,5 milyon dolar harcadığını iddia ediyor; bu, OpenAI’nin GPT-4 gibi modellerin geliştirme maliyetinin çok küçük bir kısmı.

Dezavantajı ise modelin siyasi görüşlerinin biraz filtrelenmiş olmasıdır. Örneğin DeepSeek V3’e Tiananmen Meydanı hakkında soru sorun, cevap vermeyecektir.

DeepSeek bir Çin şirketi olduğundan aşağıdaki şartlara tabidir: kıyaslama Modellerinin yanıtlarının “temel sosyalist değerleri içermesini” sağlamak için Çin’in internet düzenleyicisi tarafından. Birçok Çin yapay zeka sistemleri, düzenleyicilerin öfkesini artırabilecek spekülasyonlar gibi konulara yanıt vermeyi reddediyor. Xi Jinping Rejim.

Yakın zamanda OpenAI’nin o1 “akıl yürütme” modeline bir yanıt olan DeepSeek-R1’i tanıtan DeepSeek, meraklı bir organizasyon. Ticaret kararlarını bilgilendirmek için yapay zekayı kullanan Çinli bir niceliksel riskten korunma fonu olan High-Flyer Capital Management tarafından desteklenmektedir.

DeepSeek’in modelleri ByteDance, Baidu ve Alibaba gibi rakipleri bazı modellerin kullanım fiyatlarını düşürmeye, bazılarını ise tamamen ücretsiz yapmaya zorladı.

High-Flyer, model eğitimi için kendi sunucu kümelerini oluşturur; bunların en yenilerinden biri bildirildiğine göre 10.000 Nvidia A100 GPU’ya sahip ve maliyeti 1 milyar yen (~138 milyon dolar). Bilgisayar bilimi mezunu Liang Wenfeng tarafından kurulan High-Flyer, DeepSeek organizasyonu aracılığıyla “süper akıllı” yapay zekaya ulaşmayı hedefliyor.

bir röportaj Bu yılın başlarında Liang, açık kaynak kullanımını “kültürel bir eylem” olarak tanımladı ve OpenAI gibi kapalı kaynak yapay zekayı “geçici” bir hendek olarak nitelendirdi. “OpenAI’nin kapalı kaynak yaklaşımı bile diğerlerinin yetişmesini engellemedi” diye belirtti.

Aslında.

genel-24

DeepSeek’in yeni yapay zeka modeli şu ana kadarki en iyi ‘açık’ rakiplerden biri gibi görünüyor

Sanal Medya

Son Eklenenler

2 Kişilik Hayal, Şimdi Yüksek Teknoloji Yerli Lazer Kesim ve Markalama Makineleri Üretiyor

1,479 $’lık Alienware oyuna hazır PC, RTX 5070 ve Ultra 7 CPU ile 4K destekli

Meta Hindistan’ın CRED Kurucusu Kunal Shah’ı WhatsApp’a Atadı ve 900M Dolar Yatırımda Bulundu

Krabiyeleri Yönetmek İçin Hazırladığınız Kodlar (Haziran 2026)

Kritik Uyarı: 29 Yaşındaki Squid Proxy Hatası HTTP İsteklerini Sızdırıyor

Apple’ın Yeni AirTag’leri Prime Günü’nde Rekor Fiyatlarla!

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer