Meta, bir videodaki herhangi bir nesneyi hareket ederken etiketleyebilen ve takip edebilen yeni bir AI modeline sahiptir. Segment Anything Model 2 (SAM 2), görüntülerle sınırlı olan selefi SAM’in yeteneklerini genişleterek video düzenleme ve analizi için yeni fırsatlar sunar.
SAM 2’nin gerçek zamanlı segmentasyonu potansiyel olarak büyük bir teknik sıçramadır. Yapay zekanın hareketli görüntüleri nasıl işleyebildiğini ve ekrandaki öğeleri, çerçevenin etrafında hareket ederken veya çerçeveden çıkarken ve tekrar içeri girerken bile nasıl ayırt edebildiğini gösterir.
Segmentasyon, yazılımın bir görüntüdeki hangi piksellerin hangi nesnelere ait olduğunu belirlemesi için kullanılan terimdir. Bunu yapabilen bir AI asistanı, karmaşık görüntüleri işlemeyi veya düzenlemeyi çok daha kolay hale getirir. Bu, Meta’nın orijinal SAM’inin çığır açan buluşuydu. SAM, mercan resiflerinin sonar görüntülerini segmentlemeye, afet yardım çalışmalarına yardımcı olmak için uydu görüntülerini ayrıştırmaya ve hatta cilt kanserini tespit etmek için hücresel görüntüleri analiz etmeye yardımcı oldu.
SAM 2, video kapasitesini genişletiyor; bu da küçük bir başarı değil ve çok yakın zamana kadar uygulanabilir olmayacaktı. SAM 2’nin çıkışının bir parçası olarak Meta, modeli eğitmek için oluşturulmuş 50.000 videodan oluşan bir veritabanı paylaştı. Bu, Meta’nın kullandığını belirttiği diğer 100.000 videoya ek olarak. Tüm eğitim verilerinin yanı sıra, gerçek zamanlı video segmentasyonu önemli miktarda bilgi işlem gücü gerektirir, bu nedenle SAM 2 şu anda açık ve ücretsiz olsa da, sonsuza kadar böyle kalmayacaktır.
Segment Başarısı
SAM 2’yi kullanarak, video editörleri bir sahnedeki nesneleri mevcut düzenleme yazılımlarının sınırlı yeteneklerinden daha kolay bir şekilde izole edebilir ve işleyebilir ve her kareyi manuel olarak ayarlamanın çok ötesine geçebilir. Meta, SAM 2’nin etkileşimli videoda da devrim yaratacağını öngörüyor. Kullanıcılar, yapay zeka modeli sayesinde canlı videolarda veya sanal alanlarda nesneleri seçebilir ve işleyebilir.
Meta, SAM 2’nin özellikle otonom araçlarda bilgisayarlı görüş sistemlerinin geliştirilmesi ve eğitilmesinde de önemli bir rol oynayabileceğini düşünüyor. Bu sistemlerin ortamlarını güvenli bir şekilde yorumlamaları ve gezinmeleri için doğru ve etkili nesne takibi olmazsa olmazdır. SAM 2’nin yetenekleri, görsel verilerin açıklama sürecini hızlandırarak bu AI sistemleri için yüksek kaliteli eğitim verileri sağlayabilir.
Yapay zeka video çılgınlığının çoğu, metin istemlerinden video üretme etrafında dönüyor. OpenAI’nin Sora, Runway ve Google Veo gibi modelleri bir sebepten dolayı çok ilgi görüyor. Yine de, SAM 2’nin sağladığı düzenleme yeteneği türü, yapay zekayı video oluşturma sürecine yerleştirmede daha da büyük bir rol oynayabilir.
Ve Meta’nın şu anda bir üstünlüğü olsa da, diğer AI video geliştiricileri kendi versiyonlarını üretmeye hevesli. Örneğin, Google’ın son araştırması, YouTube’da test ettiği video özetleme ve nesne tanıma özelliklerine yol açtı. Adobe ve Firefly AI araçları da fotoğraf ve video düzenlemeye odaklanmış durumda ve içerik farkında dolgu ve otomatik yeniden çerçeveleme özellikleri içeriyor.