
Hugging Face, geçen hafta SMOLVLM Vizyon Dili modeline iki yeni varyant tanıttı. Yeni Yapay Zeka (AI) modelleri 256 milyon ve 500 milyon parametre boyutunda mevcuttur ve birincisi şirket tarafından dünyanın en küçük vizyon modeli olarak iddia edilmektedir. Yeni varyantlar, boyutu önemli ölçüde azaltırken, eski iki milyar parametre modelinin verimliliğini korumaya odaklanıyor. Şirket, yeni modellerin yerel olarak kısıtlı cihazlarda, tüketici dizüstü bilgisayarlarında ve hatta potansiyel olarak tarayıcı tabanlı çıkarımlarda çalıştırılabileceğini vurguladı.
Hugging Face daha küçük smolvlm AI modelleri tanıtıyor
Bir Blog yazısıŞirket, mevcut 2 milyar parametre modeline ek olarak SMOLVLM-256M ve SMOLVLM-500M Vizyon Dili modellerini duyurdu. Sürüm, yukarıda belirtilen parametre boyutlarında iki temel model ve iki talimat ince ayarlı model getiriyor.
Hugging Face, bu modellerin doğrudan transformatörlere, makine öğrenimi değişimine (MLX) yüklenebileceğini ve açık sinir ağı değişimi (ONNX) platformlarının ve geliştiricilerin temel modellerin üstünde oluşturabileceğini söyledi. Özellikle, bunlar hem kişisel hem de ticari kullanım için Apache 2.0 lisansına sahip açık kaynaklı modellerdir.
Yeni AI modelleri ile Hugging Face, bilgisayar görüşüne odaklanan multimodal modelleri taşınabilir cihazlara getirmeyi amaçlıyor. Örneğin, 256 milyon parametre modeli, saniyede 16 görüntüyü işlemek için bir GB’den az GPU belleği ve 15GB RAM üzerinde çalıştırılabilir (parti boyutu 64 ile).
Andrés Marafioti, Hugging Face’te bir makine öğrenimi araştırma mühendisi söylenmiş VentureBeat, “Aylık 1 milyon görüntü işleyen orta ölçekli bir şirket için, bu, hesaplama maliyetlerinde yıllık önemli tasarruflara dönüşüyor.”
AI modellerinin boyutunu azaltmak için, araştırmacılar görme kodlayıcıyı önceki Siglip 400m’den 93m-parametreli bir Siglip taban yamasına geçirdiler. Ek olarak, tokenizasyon da optimize edildi. Yeni Vizyon modelleri, 2B modelindeki jeton başına 1820 piksele kıyasla, jeton başına 4096 piksel oranında görüntüleri kodlar.
Özellikle, daha küçük modeller performans açısından 2B modelinin de marjinal olarak arkasında, ancak şirket bu ödünleşmenin minimumda tutulduğunu söyledi. Sarılma yüzüne göre, 256m varyantı resimlerin veya kısa videoların altyazısı için kullanılabilir, belgelerle ilgili soruları ve temel görsel akıl yürütme görevlerini yanıtlamak için kullanılabilir.
Geliştiriciler, eski SMOLVLM koduyla çalışırken AI modelinin çıkarım ve ince ayar yapmak için Transformers ve MLX’i kullanabilirler. Bu modeller de listelenmiş Sarılma yüzünde.

