Çinli bir yapay zeka (AI) firması olan DeepSeek, Perşembe günü DeepSeek-V3 AI modelini piyasaya sürdü. Yeni açık kaynaklı büyük dil modeli (LLM), 405 milyar parametreye sahip Meta Llama 3.1 modelini geride bırakarak 671 milyar devasa parametreye sahiptir. Araştırmacılar, büyüklüğüne rağmen Yüksek Lisans’ın uzman karışımı (MEB) mimarisiyle verimliliğe odaklandığını iddia etti. Bu nedenle yapay zeka modeli yalnızca sağlanan göreve ilişkin belirli parametreleri etkinleştirebilir ve verimlilik ve doğruluk sağlayabilir. Özellikle metin tabanlı bir modeldir ve çok modlu yeteneklere sahip değildir.
DeepSeek-V3 Yapay Zeka Modeli Yayınlandı
Açık kaynaklı DeepSeek-V3 AI modeli şu anda geliştiriliyor barındırılan Sarılma Yüzünde. Listeye göre LLM, verimli çıkarım ve uygun maliyetli eğitime yöneliktir. Bunun için araştırmacılar Çok Kafalı Gizli Dikkat (MLA) ve DeepSeekMoE mimarilerini benimsediler.
Temel olarak yapay zeka modeli, yalnızca istemin konusuyla ilgili parametreleri etkinleştirerek, bu boyuttaki tipik modellere kıyasla daha hızlı işlem ve daha yüksek doğruluk sağlar. 14,8 trilyon token üzerinde önceden eğitilmiş olan DeepSeek-V3, yüksek kaliteli yanıtlar oluşturmak için denetimli ince ayar ve takviyeli öğrenme gibi teknikleri kullanır.
Çinli firma, boyutuna rağmen AI modelinin Nvidia H800 GPU ile 2.788 milyon saatte tamamen eğitildiğini iddia etti. DeepSeek-V3’ün mimarisi aynı zamanda performans düşüşünü en aza indirmek için bir yük dengeleme tekniği de içerir. Bu teknik ilk olarak selefinde kullanıldı.
Performans konusuna gelince, araştırmacılar modelin dahili testlerinden elde edilen değerlendirmeleri paylaştılar ve Big-Bench High-Performance (BBH), Massive Multitask Language Understanding (MMLU), HumanEval, MATH, ve diğer bazı kriterler. Ancak bunlar şu anda üçüncü taraf araştırmacılar tarafından doğrulanmadı.
DeepSeek-V3’ün en önemli özelliklerinden biri 671 milyar parametreden oluşan devasa boyutudur. Daha büyük modeller mevcut olsa da, örneğin Gemini 1.5 Pro’nun bir trilyon parametresi vardır, açık kaynak alanında bu boyut nadirdir. Bundan önce en büyük açık kaynaklı yapay zeka modeli, 405 milyar parametreyle Meta’nın Llama 3.1’iydi.
Şu anda DeepSeek-V3’ün koduna, kişisel ve ticari kullanım için MIT lisansı altında Hugging Face listesiyle erişilebiliyor. Ayrıca yapay zeka modeli şirketin çevrimiçi chatbot platformu aracılığıyla da test edilebilecek. Yapay zeka modelini kullanarak derlemek isteyenler de API’ye erişebilir.
En son teknoloji haberleri ve incelemeleri için Gadgets 360’ı takip edin X, Facebook, WhatsApp, Konular Ve Google Haberler. Cihazlar ve teknolojiyle ilgili en son videolar için abone olun YouTube kanalı. En iyi etkileyiciler hakkında her şeyi bilmek istiyorsanız şirket içi bölümümüzü takip edin O Kim360 Açık instagram Ve YouTube.

Bugün Kripto Fiyatı: Bitcoin Fiyat Düşüşünü Görüyor ve Piyasa Genelinde Bir Düzeltmede Çoğu Kripto Para Biriminin Yanında
2024’ün En İyi Orta Sınıf Akıllı Telefonları: Redmi Note 14 Pro+, OnePlus Nord 4, Realme 13 Pro+ ve Daha Fazlası


