Eğitimli bir veri bilimcisi olan Jae Lee’ye göre, TikTok, Vimeo ve YouTube gibi platformların yükselişiyle birlikte hayatımızın muazzam bir parçası haline gelen videonun teknik engeller nedeniyle aranmasının zor olması hiçbir zaman mantıklı gelmedi. bağlam anlayışı tarafından ortaya konmuştur. Videoların başlıklarını, açıklamalarını ve etiketlerini aramak her zaman yeterince kolaydı ve temel bir algoritmadan fazlasını gerektirmiyordu. Ama aranıyor içinde belirli anlar ve sahneler için videolar, özellikle bu anlar ve sahneler açık bir şekilde etiketlenmemişse, teknolojinin yeteneklerinin çok ötesindeydi.

Bu sorunu çözmek için Lee, teknoloji endüstrisinden arkadaşlarıyla birlikte video arama ve anlama için bir bulut hizmeti oluşturdu. Dönüştü Oniki Laboratuvar, risk sermayesinde 17 milyon dolar topladı – bunun 12 milyon doları bugün sona eren bir tohum uzatma turundan geldi. Lee, TechCrunch’a bir e-postayla verdiği demeçte, Radikal Ventures, Index Ventures, WndrCo, Spring Ventures, Weights & Biases CEO’su Lukas Biewald ve diğerlerinin katılımıyla uzantıya öncülük etti.

Lee, “Twelve Labs’ın vizyonu, geliştiricilere en güçlü video anlama altyapısını vererek bizim gibi dünyayı görebilen, dinleyebilen ve anlayabilen programlar oluşturmalarına yardımcı olmaktır” dedi.

Twelve Labs platformunun yeteneklerinin bir demosu. Görsel Kaynakları: Oniki Laboratuvar

Şu anda kapalı beta aşamasında olan Twelve Labs, aralarındaki ilişkileri belirlemek için hareket ve eylemler, nesneler ve insanlar, ses, ekrandaki metin ve konuşma gibi videolardan “zengin bilgiler” çıkarmaya çalışmak için yapay zekayı kullanıyor. Platform, bu çeşitli öğeleri “vektörler” adı verilen matematiksel temsillere dönüştürür ve çerçeveler arasında “geçici bağlantılar” oluşturarak video sahnesi arama gibi uygulamaları etkinleştirir.

Lee, “Geliştiricilerin akıllı video uygulamaları oluşturmasına yardımcı olmak için şirketin vizyonuna ulaşmanın bir parçası olarak, Twelve Labs ekibi çok modlu video anlayışı için ‘temel modeller’ inşa ediyor” dedi. “Geliştiriciler, yalnızca semantik arama yapmakla kalmayıp, aynı zamanda uzun biçimli video ‘bölümleştirme’, özet oluşturma ve video soru ve yanıtlama gibi diğer görevleri de gerçekleştirerek bir API paketi aracılığıyla bu modellere erişebilecek.”

Google, videolardaki konuları (ör. “akrilik boyama malzemeleri”) ses, metin ve görsele dayalı olarak seçerek Google Arama ve YouTube’da video önerilerini güçlendirmek için kullandığı MUM AI sistemiyle video anlamaya benzer bir yaklaşım benimsiyor. içerik. Ancak teknoloji karşılaştırılabilir olsa da, Twelve Labs onunla pazarlanan ilk satıcılardan biridir; Google, halka açık bir API aracılığıyla kullanıma sunmayı reddederek MUM’u dahili tutmayı seçti.

Bununla birlikte Google, Microsoft ve Amazon’un yanı sıra videolardaki nesneleri, yerleri ve eylemleri tanıyan ve çerçeve düzeyinde zengin meta verileri çıkaran hizmetler (ör. Google Cloud Video AI, Azure Video Indexer ve AWS Rekognition) sunar. Ayrıca, her türlü videoyu dizine ekleyebileceğini ve hem kayıtlı hem de canlı yayınlanan içeriğe etiket ekleyebileceğini iddia eden bir Fransız bilgisayar görüşü girişimi olan Reminiz de var. Ancak Lee, Twelve Labs’ın yeterince farklı olduğunu iddia ediyor – kısmen platformunun müşterilerin yapay zekayı belirli video içeriği kategorilerine göre ince ayar yapmasına izin vermesi nedeniyle.

Modelin salatayla ilgili içerikle daha iyi çalışması için ince ayar yapmaya yönelik API modeli. Görsel Kaynakları: Oniki Laboratuvar

Lee, “Belirli sorunları tespit etmek için oluşturulan dar yapay zeka ürünlerinin, kontrollü bir ortamda ideal senaryolarında yüksek doğruluk gösterdiğini, ancak dağınık gerçek dünya verilerine göre çok iyi ölçeklenmediğini bulduk” dedi. “Daha çok kural tabanlı bir sistem olarak hareket ederler ve bu nedenle, farklılıklar meydana geldiğinde genelleme yapma yeteneğinden yoksundurlar. Bunu aynı zamanda bağlam anlayışı eksikliğinden kaynaklanan bir sınırlama olarak görüyoruz. Bağlamı anlamak, insanlara gerçek dünyadaki görünüşte farklı durumlar arasında genellemeler yapmak için benzersiz bir yetenek kazandıran şeydir ve Twelve Labs’ın tek başına durduğu yer burasıdır.

Aramanın ötesinde Lee, Twelve Labs teknolojisinin reklam ekleme ve içerik denetleme gibi şeyleri yönlendirebileceğini, örneğin bıçakları gösteren hangi videoların şiddet içerikli videoların eğitici olduğunu akıllı bir şekilde belirleyebildiğini söylüyor. Ayrıca, medya analitiği ve gerçek zamanlı geri bildirim için ve videolardan otomatik olarak öne çıkan makaralar oluşturmak için kullanılabileceğini söylüyor.

Kuruluşundan bir yıldan biraz daha uzun bir süre sonra (Mart 2021), Twelve Labs’in ödeme yapan müşterileri var (Lee tam olarak kaç tane olduğunu açıklamadı) ve Oracle’ın bulut altyapısını kullanarak yapay zeka modellerini eğitmek için Oracle ile çok yıllı bir sözleşmesi var. Başlangıç, ileriye dönük olarak teknolojisini geliştirmek ve ekibini genişletmek için yatırım yapmayı planlıyor. (Lee, Twelve Labs’ın iş gücünün mevcut boyutunu açıklamayı reddetti, ancak LinkedIn veri kabaca 18 kişi olduğunu gösterir.)

“Çoğu şirket için, büyük modeller aracılığıyla elde edilebilecek büyük değere rağmen, bu modelleri kendilerinin eğitmesi, çalıştırması ve bakımını yapması gerçekten mantıklı değil. Bir Twelve Labs platformundan yararlanan herhangi bir kuruluş, yalnızca birkaç sezgisel API çağrısıyla güçlü video anlama yeteneklerinden yararlanabilir,” dedi Lee. “Yapay zeka inovasyonunun gelecekteki yönü, doğrudan çok modlu video anlayışına doğru ilerliyor ve Twelve Labs, 2023’te sınırları daha da ileriye taşımak için iyi bir konumda.”



genel-24