AI Şirketi Susam Maya’ya güç veren temel modeli yayınladı, etkileyici gerçekçi ses asistanı.
1 milyar parametre boyutu olan model (modelin bireysel bileşenlerine atıfta bulunan “parametreler”) Apache 2.0 lisansı altındadır, yani ticari olarak az sayıda kısıtlama ile kullanılabilir. CSM-1B olarak adlandırılan model, metin ve ses girişlerinden “RVQ ses kodları” oluşturur, Susamın AI Dev Platformu Hugging Yüzü’ndeki açıklaması.
RVQ, sesi kod adı verilen ayrı jetonlara kodlamak için bir teknik olan “artık vektör nicemlemesi” anlamına gelir. RVQ kullanılır Bir dizi son AI ses teknolojisindeGoogle’ın SoundStream ve Meta’s EncoDec dahil.
CSM-1B, bir ses “kod çözücü” bileşeni ile eşleştirilmiş omurgası olarak Meta’nın Lama ailesinden bir model kullanır. Susam, CSM Powers Maya’nın ince ayarlı bir varyantını söylüyor.
Susam, CSM-1B’lerde “Burada açık kaynaklı model bir temel üretim modeli” diye yazıyor Sarılma Yüzü Ve Gitithub Depolar. “Çeşitli sesler üretebilir, ancak belirli bir sesle ince ayarlanmamıştır […] Model, eğitim verilerindeki veri kontaminasyonu nedeniyle İngilizce olmayan diller için bir miktar kapasiteye sahiptir, ancak muhtemelen iyi olmayacaktır. ”
CSM-1B’yi eğitmek için hangi veri susamının kullandığı belirsizdir. Şirket söylemedi.
Modelin konuşacak gerçek önlemleri olmadığını belirtmek gerekir. Susam’ın bir onur sistemi vardır ve geliştiricileri ve kullanıcıları, rızası olmadan bir kişinin sesini taklit etmek, sahte haberler gibi yanıltıcı içerik oluşturmak veya “zararlı” veya “kötü niyetli” etkinliklerde bulunmak için modeli kullanmamaya çağırır.
Denedim demo Yüzde sarılmak ve sesimi klonlamak bir dakikadan az sürdü. Oradan, seçim ve Rus propagandası gibi tartışmalı konular da dahil olmak üzere kalbimin arzusuna konuşma yapmak kolaydı.
Tüketici raporları yakın zamanda piyasadaki birçok popüler AI destekli ses klonlama araçının “anlamlı” korumalar yok Dolandırıcılığı veya istismarı önlemek için.
Oculus ortak yaratıcı Brendan Iribe tarafından kurulan Susam, Şubat ayı sonlarında, Unnry Valley bölgesini temizlemeye yaklaşan yardımcı teknolojisi için viral oldu. Maya ve Susam’ın diğer asistanı Miles, nefes alır ve cahilliklerle konuşurlar ve Openai’nin ses modu gibi konuşurken kesintiye uğrayabilir.
Susam, Andreessen Horowitz, Spark Capital ve Matrix Partners’dan açıklanmayan bir sermaye topladı. Şirket, ses asistanı teknolojisi inşa etmenin yanı sıra, özel modelleriyle donatılacak “tüm gün giyilecek şekilde tasarlanmış” AI gözlüklerini prototip oluşturduğunu söylüyor.

