Midjourney ve ChatGPT gibi hizmetler, yapay zekanın temel metin bilgi istemlerinden resim ve metin oluşturma şeklinin sınırlarını zorladı. Şimdi, ses kaçınılmaz bir sonraki sınır gibi görünüyor. Kelime istemlerine dayalı müzik üretimi, dil öğrenimi için yapay zeka eğitmenleri ve ses simülatörlerinin tümü son aylarda gelişmeler gördü. Voice.ai kullanıcıların seslerini gerçek zamanlı olarak değiştirmelerine (ve gizlemelerine) izin veren teknolojiyle bu konuşmanın (heh) bir parçası olmayı umuyor ve şimdi erken büyümenin hemen ardından ilk dış finansmanını artırdı.

480.000’den fazla kullanıcı ve 50.000’den fazla ses filtresi içeren bir kütüphane ile Voice.ai, ses değiştiren teknolojisini yeni yerlere taşımak için kullanmayı planladığı fonla 6 milyon dolar topladı.

Mucker Capital ve M13 raundu yönetiyor. Şimdiye kadar, Voice.ai ağızdan ağza büyüdü – girişimin 120.000’den fazla kişiyle bir Discord kanalı var – kendi kendine finanse ettiği 3 milyon dolarla.

Şu anda şirketin Mac, PC, Android ve iOS uygulamaları olarak sunulan araçları oyuncular, içerik oluşturucular, Vtuber’lar ve diğerleri tarafından TikTok, Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Aramızda benimseniyor , Skype, WhatsApp ve diğer platformlar. Voice.ai arayüzü, yeni bir ses oluşturmalarına veya olduğu gibi kullanılabilen veya değiştirilebilen, desteklenen platformlarda canlı olarak kullanılabilen veya önceden oluşturulmuş yaklaşık 50.000 farklı önceden oluşturulmuş ses (kendileri gibi kullanıcılar tarafından oluşturulmuş ve paylaşılan) arasından seçim yapmalarına olanak tanır. kayıtlar için.

Plan, finansmanı daha fazla teknik yetenek işe almak ve Meta, Unreal ve Unity gibi başka platformlarla çalışmak üzere yeni SDK’lar ve API’ler oluşturmak için kullanmak; çoklu dil desteği getirmek; ve sesin merkez sahne olduğu şarkı söylemek gibi yeni uygulamalar ekleyin.

Başlangıç, onu ayırmıyor, ancak finansmanın bir kısmını sunucu kapasitesini artırmak için de kullanıp kullanmadığını görmek ilginç olacak.

Bu küçük bir yük değil. Anekdot olarak, GPU ağrısının şu anda birçok AI uygulamasının nasıl ölçeklenebileceği konusunda en büyük kapı faktörlerinden biri olduğunu duyduk. (İşlem ve sunucu kapasitesi sağlayan stratejiler içeren büyük anlaşmaların yapıldığını görmenizin nedeni kısmen budur.)

Özellikle Voice.ai için, sesiniz yerel olarak işlenir ve kurucu ve CEO Heath Ahrens’in bana “sanal ses kablosu” olarak tanımladığı şey aracılığıyla kullanılacağı yere kanalize edilir. Ancak, uygulamalarının incelemelerine baktığınızda, ortak bir yakınma, kaydolduğunuzda bir bekleme listesine alınmanızdır, çünkü “ezici talep sunucularımızı maksimum kapasiteye getirdi” ve hizmet arttığında size bilgi verileceği sözü verilir. kapasite.

Bugün piyasada düzinelerce konuşmadan sese ve sesten konuşmaya hizmet var ve bunların arasında şimdiden pek çok etkinlik var: Geçen yıl Spotify, Sonantic’i satın aldı ve Snap bundan daha önce bir yapay zeka sesli asistanı satın aldı; başka bir girişim, Sanas, aksanınızı değiştirmek için çalışıyor ve diğerleri arasında Murf ve Acapela ses simülatörleri var. Voice.ai kendisini, sesten sese yapay zeka girişimi olan Respeecher ve ElevenLabs ile aynı genel kategoride sayıyor ve kullanıcıların seslerini ince ayar yapmak veya tamamen dönüştürmek için maskeler uygulamasına izin veriyor – bazı durumlarda gerçek ses yerine tamamen sentetik sesler yaratıyor.

RespeecherUkrayna’da kurulu ve merkezi olan , James Earl Jones’un 45 yıl önce rolü ilk ortaya koyduğu zamanki sesine dayanarak, yeni Star Wars taksitleri için yeni bir Darth Vader sesi oluşturmaya yardım ederek bir isim yaptı. (Dünyaları yok etmeye kararlı bir karaktere uygun olarak, Darth’ın sesi teslim edildi Rusya ülkeye girerken Ukrayna’daki ofislerinden Hollywood müşterisine.)

ElevenLabs – ünlü (veya rezil bir şekilde) gibi durumda olabilir) – sesleri klonlamada korkutucu derecede iyi bir platform kurdu ve bu ayın başlarında bir grup ünlü yatırımcıdan 19 milyon dolarlık en son finansman turunu aldı.

Voice.ai, bu karışımda kendisini Everyman için AI ses değiştirme uygulaması olarak konumlandırmaya çalışıyor.

Ahrens, TechCrunch’a bir e-postada “İşletmelere farklı bir ses teknolojisi sunmaya çalışan birçok şirket var” dedi (ironik bir şekilde, onunla canlı bir röportaj ayarlamak mümkün değildi). Ahrens, B2B yapay zeka teknolojisi oluşturma konusunda biraz deneyime sahip: önceki iki şirketi — metinden konuşmaya yönelik iSpeech ve yüz tanıma için Haystack — API teklifleri üzerine kurulu.

“Voice.ai’yi diğerlerinden ayıran şey, daha önce kurumsal şirketler için ayrılmış olan teknolojiyi uygun fiyatlı bir şekilde doğrudan tüketicilerin eline sunmaya odaklanmış olmamızdır.” Birçok kullanıcının, “bize klasikten geldiğini” belirtti. DSP geçmişte kullandıkları ve hala birçok oyuncu ve yayıncı arasında popüler olan ses değiştiriciler ve ses modülatörleri.

“Uygun fiyatlı” iki katman halinde gelir; çoğu kullanıcı artık Voice.ai’nin modellerini eğitmek için bilgi işlem gücü sağlamayı seçmelerini gerektiren ücretsiz bir hizmet kullanıyor ve bu hizmet “milyonlarca benzersiz kullanıcıdan oluşan kendi özel veri kümesine dayanıyor” ” Sitede herhangi bir fiyatlandırma sağlanmamaktadır: bu ayrıntıları istiyoruz.

Ahrens, “Teknolojiyi erişilebilir kılmaya inanıyoruz ve Voice AI teknolojisini demokratikleştirmek için açık kaynak topluluğuyla birlikte çalışmayı planlıyoruz” diye ekledi.

Voice.ai ayrıca, bir sesi değiştirme zorluğuna temelde farklı bir yaklaşım getirdiğini, avatarların Vtuber’lar, oyuncular ve diğer çevrimiçi kişiler tarafından kullanılması etrafında oluşan bazı değerlerden yararlandığını iddia ediyor.

Ahrens, “Uzaya giren çoğu ses AI şirketi, ölçeklenebilir kurumsal odaklı metinden konuşmaya çözümler veya prodüksiyon stüdyoları için pahalı sesten sese hizmetler oluşturmaya çalışıyor” dedi. “Zıt yelpazeden başlıyoruz ve çevrimiçi seslerini genişletmek isteyen kişilere değer sunmaya çalışıyoruz. Konuşmadan konuşmaya yapay zekamızın temel değer önermesi, herhangi bir kişiyi mükemmel bir şekilde kopyalayabilmesi değildir. Gerçek zamanlı olarak tamamen benzersiz yeni bir sonuç yaratmak için sesin yerini alırken, kullanıcının konuşmasının temel unsurlarını koruyor: duyguları, ilerleme hızı ve vurgu.

Bunun nedeni, oyun oynama gibi etkileşimli platformlardaki demografinin çarpık olması olabilir, ancak şimdilik Voice.ai’nin izleyici kitlesi %70 erkek, %30 kadın ve sadece teknolojiyi kimin kullandığı değil, neden kullandığı etrafında açılan yeni kategoriler var.

Bu, yalnızca avatarları kullanan ve onlara uygun sesler oluşturanları veya daha fazla gizlilik koruması arayanları değil, aynı zamanda, “kimliklerine uyan seslerle kendilerini temsil edebilen trans kullanıcıları ve tamamen yeni çevrimiçi keşfeden kullanıcıları içerir” dedi. kendileri için kişilikler.

Halihazırda Voice.ai’nin doğrudan tüketiciye tekliflerinden yararlanan bir kullanıcı tabanı var, ancak Mucker’ın bu girişime yatırım yapmasının nedenlerinden biri, Voice.ai’yi kullanan ve entegre eden bir geliştirici ağı oluşturma fırsatı olduğuna inanması. onun teknolojisi.

Baş yatırımcı Mucker Capital’in ortağı Omar Hamoui, “Voice.ai, AdMob’un mobil uygulama geliştirici topluluğu üzerindeki etkisine benzer bir şekilde yapay zeka geliştirici topluluğunda devrim yaratmaya hazırlanıyor,” dedi. (Hamoui daha önce mobil reklam girişimi AdMob’u kurdu ve sonunda Google tarafından satın alındı, bu nedenle mobil geliştirici araçları oluşturma konusunda doğrudan deneyime sahip.) “Voice.ai, bir zamanlar büyük işletmelere özel olan kullanıcı dostu çözümler sunarak, dünya çapındaki geliştiriciler.”

M13 yatırımına öncülük eden Digital Ocean’ın eski COO’su Karl Alomar, yatırımcıların geliştirmenin bir sonraki aşamasında aktif rol alacaklarını söyledi. “Digital Ocean’da da inşaatçılar tarafından bir inşaatçılar topluluğu oluşturmanın değerini gördük” dedi. “Yaratıcıların ve geliştiricilerin Voice.ai platformu üzerinde geliştirme yapması için heyecanlıyız.”



genel-24