Hugging Face, tüketici dizüstü bilgisayarlarda çalışabilen smolvlm vizyon dil modelinin kompakt versiyonlarını tanıtıyor

Son güncelleme: 28 Ocak 2025 00:06

Hugging Face, geçen hafta SMOLVLM Vizyon Dili modeline iki yeni varyant tanıttı. Yeni Yapay Zeka (AI) modelleri 256 milyon ve 500 milyon parametre boyutunda mevcuttur ve birincisi şirket tarafından dünyanın en küçük vizyon modeli olarak iddia edilmektedir. Yeni varyantlar, boyutu önemli ölçüde azaltırken, eski iki milyar parametre modelinin verimliliğini korumaya odaklanıyor. Şirket, yeni modellerin yerel olarak kısıtlı cihazlarda, tüketici dizüstü bilgisayarlarında ve hatta potansiyel olarak tarayıcı tabanlı çıkarımlarda çalıştırılabileceğini vurguladı.

Hugging Face daha küçük smolvlm AI modelleri tanıtıyor

Bir Blog yazısıŞirket, mevcut 2 milyar parametre modeline ek olarak SMOLVLM-256M ve SMOLVLM-500M Vizyon Dili modellerini duyurdu. Sürüm, yukarıda belirtilen parametre boyutlarında iki temel model ve iki talimat ince ayarlı model getiriyor.

Hugging Face, bu modellerin doğrudan transformatörlere, makine öğrenimi değişimine (MLX) yüklenebileceğini ve açık sinir ağı değişimi (ONNX) platformlarının ve geliştiricilerin temel modellerin üstünde oluşturabileceğini söyledi. Özellikle, bunlar hem kişisel hem de ticari kullanım için Apache 2.0 lisansına sahip açık kaynaklı modellerdir.

Yeni AI modelleri ile Hugging Face, bilgisayar görüşüne odaklanan multimodal modelleri taşınabilir cihazlara getirmeyi amaçlıyor. Örneğin, 256 milyon parametre modeli, saniyede 16 görüntüyü işlemek için bir GB’den az GPU belleği ve 15GB RAM üzerinde çalıştırılabilir (parti boyutu 64 ile).

Andrés Marafioti, Hugging Face’te bir makine öğrenimi araştırma mühendisi söylenmiş VentureBeat, “Aylık 1 milyon görüntü işleyen orta ölçekli bir şirket için, bu, hesaplama maliyetlerinde yıllık önemli tasarruflara dönüşüyor.”

AI modellerinin boyutunu azaltmak için, araştırmacılar görme kodlayıcıyı önceki Siglip 400m’den 93m-parametreli bir Siglip taban yamasına geçirdiler. Ek olarak, tokenizasyon da optimize edildi. Yeni Vizyon modelleri, 2B modelindeki jeton başına 1820 piksele kıyasla, jeton başına 4096 piksel oranında görüntüleri kodlar.

Özellikle, daha küçük modeller performans açısından 2B modelinin de marjinal olarak arkasında, ancak şirket bu ödünleşmenin minimumda tutulduğunu söyledi. Sarılma yüzüne göre, 256m varyantı resimlerin veya kısa videoların altyazısı için kullanılabilir, belgelerle ilgili soruları ve temel görsel akıl yürütme görevlerini yanıtlamak için kullanılabilir.

Geliştiriciler, eski SMOLVLM koduyla çalışırken AI modelinin çıkarım ve ince ayar yapmak için Transformers ve MLX’i kullanabilirler. Bu modeller de listelenmiş Sarılma yüzünde.

genel-8

Bu Makaleyi Paylaş

Önceki Makale

AMD FSR 4, mevcut FSR 3.1 oyunlarıyla “sadece çalışmalı”, Leaker

Sonraki Makale İngiltere doğurganlık düzenleyicileri laboratuvarda yetiştirilen yumurta ve sperm için hazırlanıyor

Hugging Face, tüketici dizüstü bilgisayarlarda çalışabilen smolvlm vizyon dil modelinin kompakt versiyonlarını tanıtıyor

Hugging Face daha küçük smolvlm AI modelleri tanıtıyor

Sanal Medya

Son Eklenenler

Acil: SleeperGem, Geliştiricileri Hedefleyen Üç Zararlı RubyGems Kullanıyor

Ölçekleme Yaparken Ek Yük Olmadan: Laravel Modüler Monolit 🏢

Kritik: Dünyanın En Büyük AI Model Deposu Hugging Face Hedefte!

Geliştirici Günlüğü: 2026-07-19

Laravel Uygulamasının Güvenliğini Tek Komutla Denetleme (Terminal Gerektirmez)

Ben Affleck’in AI Film Yapım Girişimine Netflix’ten Dev Yatırım

Siber güvenlik, yapay zeka ve savunma sanayiinden; finans ve sinema dünyasına uzanan geniş bir yelpaze. Teknomers; teknoloji, strateji ve yazılım dünyasını sade bir dille sizlerle buluşturuyor.

Kurumsal

Kategoriler

Populer