Makine öğrenme platformu, Hugging Face, iPhone’unuzun kamerasında görüldüğü gibi çevrenizdeki dünyayı anlamlandıracak bir iOS uygulaması yayınladı. Sadece bir sahneye işaret edin veya bir resme tıklayın, onu tanımlamak, nesneleri tanımlamak, performans çevirisini tanımlamak veya metin tabanlı ayrıntıları çekmek için bir AI dağıtacaktır.
Huggingsnap olarak adlandırılan uygulama, etrafınızdaki sahneyi bir giriş olarak anlamak için çok modelli bir yaklaşım benimser ve şimdi uygulama mağazasında ücretsiz olarak kullanılabilir. Metin, görüntü ve videoyu giriş formatları olarak işleyebilen açık bir AI modeli olan smolvlm2 ile güçlendirilir.
Uygulamanın kapsayıcı amacı, insanların bitki ve hayvan tanıma da dahil olmak üzere etraflarındaki nesneleri ve manzarayı öğrenmelerine izin vermektir. Fikir, iPhone’lardaki görsel zekadan çok farklı değil, ancak Huggingsnap, elma rakibi hakkında çok önemli bir bacak alıyor.
Lütfen bu içeriği görüntülemek için JavaScript’i etkinleştirin
İnternetin çalışmasını gerektirmez
Tek ihtiyacı olan iOS 18 çalıştıran bir iPhone ve gitmekte fayda var. Huggingsnap soğanı, görsel zeka ile elde ettiğinizden çok farklı değildir. Ama burada temel bir farklılık var.
Apple, görsel zekanın çalışması için chatgpt’e güveniyor. Bunun nedeni, Siri’nin her ikisi de veya kendi bilgi kanepesine sahip olan CHATGPT veya Google’ın İkizleri gibi üretken bir AI aracı gibi yetenekli veya hareket edememesidir. Bunun yerine, bu tür kullanıcı isteklerini ve sorguları ChatGPT’ye indirir.
Chatgpt çevrimdışı modda çalışamadığından bu bir internet bağlantısı ister. Öte yandan huggingsnap gayet iyi çalışıyor. Moreoover, çevrimdışı bir yaklaşım, hiçbir kullanıcı verisinin telefonunuzu terk etmediği anlamına gelir, bu da her zaman gizlilik perspektifinden hoş bir değişikliktir.
Huggingsnap ile ne yapabilirsiniz?
Huggingsnap, Smolvlm2 modeli Hugging Fact tarafından geliştirildi. Peki, bu uygulamanın arkasındaki şovu çalıştıran bu model ne başarabilir? Çok fazla. Bir iPhone’un kamerasından gördüklerine göre soruları cevaplamanın yanı sıra, telefonunuzun galerisinden seçilen resimleri de işleyebilir.
Örneğin, herhangi bir tarihi anıtın bir resmini gösterin ve size seyahat önerileri vermesini isteyin. Bir grafikte çekici olan şeyleri anlayabilir veya belgeden aldığı ayrıntılara dayanarak bir elektrik faturasının resmini ve cevap sorgularını anlayabilir.
Hafif bir mimariye sahiptir ve özellikle AI’nın cihazda uygulamaları için iyi doyurulmuştur. Kıyaslamalarda, Google’ın rakip açık paligemma (3B) modelinden daha iyi performans gösterir ve Alibaba’nın rakip Qwen AI modeliyle omuzları görme yeteneklerine sahip omuzlar.

En büyük avantaj, akıllı telefonlar bağlamında özellikle önemli olan daha az sistem kaynağı gerektirmesidir. İlginç bir şekilde, popüler VLC Media Player, video açıklamaları sağlamak için aynı SMOLVLM2 modelini de kullanıyor ve kullanıcıların doğal dil istemlerini kullanarak bir videoda arama yapmasına izin veriyor.
Ayrıca bir videodan en önemli vurgu anlarını akıllıca çıkarabilir. “Verimlilik için tasarlanan Smolvlm, görüntülerle ilgili soruları cevaplayabilir, görsel içeriği tanımlayabilir, birden fazla görüntüye dayanan hikayeler oluşturabilir veya görsel girdi olmadan saf bir dil modeli olarak işlev görebilir” Diyor Uygulamanın GitHub deposu.


