Ses klonlamada çok para var.
Konuşma konusu olan mesele: Onbir LaboratuvarSentetik sesler oluşturmak ve düzenlemek için yapay zeka destekli araçlar geliştiren startup, bugün Andreessen Horowitz, eski GitHub CEO’su Nat Friedman ve girişimci Daniel Gross gibi önde gelen yatırımcıların ortak liderliğinde 80 milyon dolarlık B Serisi turunu tamamladığını duyurdu.
Sequoia Capital, Smash Capital, SV Angel, BroadLight Capital ve Credo Ventures’ın da katıldığı tur, ElevenLabs’ın toplamını 101 milyon dolara çıkardı ve şirkete 1 milyar doların üzerinde değer kazandırdı (geçen Haziran ayında ~100 milyon dolardı). CEO Mati Staniszewski, yeni paranın ürün geliştirmeye, ElevenLabs’ın altyapısını ve ekibini genişletmeye, yapay zeka araştırmalarına ve “Yapay zeka teknolojisinin sorumlu ve etik gelişimini sağlamak için güvenlik önlemlerini iyileştirmeye” aktarılacağını söyledi.
Staniszewski, TechCrunch’a bir e-posta röportajında şunları söyledi: “ElevenLabs’ın sesli yapay zeka araştırması ve ürün dağıtımında küresel lider konumunu sağlamlaştırmak için yeni para topladık.”
2022 yılında eski bir Google makine öğrenimi mühendisi olan Piotr Dabkowski ve eski bir Palantir dağıtım stratejisti olan Staniszewski tarafından ortaklaşa kurulan ElevenLabs, yaklaşık bir yıl önce beta olarak kullanıma sunuldu. Staniszewski, kendisinin ve Polonya’da büyüyen Dabkowski’nin, kötü dublajlı Amerikan filmlerinden ses klonlama araçları yaratma konusunda ilham aldıklarını söylüyor. Yapay zekanın daha iyisini yapabileceğini düşündüler.
Bugün ElevenLabs belki de en çok tonlama, duygu, kadans ve diğer önemli ses özellikleri için ayarlanabilir geçişlerle gerçekçi sesler yaratabilen tarayıcı tabanlı konuşma oluşturma uygulamasıyla tanınıyor. Kullanıcılar ücretsiz olarak metin girebilir ve bu metnin birkaç varsayılan sesten biri tarafından yüksek sesle okunmasını sağlayabilir. Ödeme yapan müşteriler, ElevenLabs’ın ses klonlamasını kullanarak yeni stiller oluşturmak için ses örneklerini yükleyebilir.
ElevenLabs, sesli kitaplar oluşturmayı, film ve TV şovlarını seslendirmeyi ve ayrıca oyunlar ve pazarlama faaliyetleri için karakter sesleri üretmeyi amaçlayan konuşma üretme teknolojisinin versiyonlarına giderek daha fazla yatırım yapıyor.
Geçen yıl şirket, arka plandaki gürültüyü otomatik olarak ortadan kaldırırken konuşmacının sesini, prozodisini ve tonlamasını korumaya çalışan ve (filmler ve TV şovları söz konusu olduğunda) konuşmayı kaynak materyale çevirip senkronize eden bir “konuşmadan konuşmaya” aracını piyasaya sürdü. Önümüzdeki haftaların yol haritasında, transkriptleri ve çevirileri oluşturmaya ve düzenlemeye yönelik araçlar ve ElevenLabs seslerini kullanarak web sayfalarını ve metinleri anlatan abonelik tabanlı bir mobil uygulama içeren yeni bir dublaj stüdyosu iş akışı yer alıyor.
ElevenLabs’ın yenilikleri, diğer yayıncılık, medya ve eğlence şirketlerinin yanı sıra son projeleri arasında Cities: Skylines 2 ve Stellaris ve The Washington Post’un da yer aldığı oyun geliştiricisi Paradox Interactive’in startup müşterilerini kazandı. Staniszewski, ElevenLab kullanıcılarının 100 yıldan fazla sese eşdeğer ses ürettiğini ve platformun Fortune 500 şirketlerinin %41’indeki çalışanlar tarafından kullanıldığını iddia ediyor.
Ancak tanıtım tamamen olumlu olmadı.
Komplo içeriğiyle bilinen meşhur mesaj panosu 4chan, kullanılmış ElevenLabs’ın, aktris Emma Watson gibi ünlüleri taklit eden nefret dolu mesajları paylaşmaya yönelik araçları. Verge’den James Vincent, ElevenLabs’tan yararlanarak kötü niyetle sesleri birkaç saniye içinde klonlamayı başardı. üreten şiddet tehditlerinden ırkçı ve transfobik ifadelere kadar her şeyi içeren örnekler. Ve Vox’ta muhabir Joseph Cox belgelenmiş Bir bankanın kimlik doğrulama sistemini kandıracak kadar ikna edici bir klon üretmek.
Buna yanıt olarak ElevenLabs, kötüye kullanımı yasaklayan hizmet şartlarını defalarca ihlal eden kullanıcıları ortadan kaldırmaya çalıştı ve platformu tarafından oluşturulan konuşmayı tespit etmek için bir araç kullanıma sundu. Staniszewski, bu yıl ElevenLabs’ın diğer ses üreten yapay zeka modellerinden gelen sesleri işaretlemek için algılama aracını geliştirmeyi ve aracı üçüncü taraf platformlarda kullanılabilir hale getirmek için adı açıklanmayan “dağıtım oynatıcılarıyla” ortaklık kurmayı planladığını söylüyor.
ElevenLabs ayrıca, şirketin kendi ses örneklerini kendi rızaları olmadan kullandığını iddia eden seslendirme sanatçılarının eleştirileriyle de karşı karşıya kaldı; bu örnekler, onaylamadıkları içeriği tanıtmak veya yanlış ve yanlış bilgi yaymak için kullanılabilir. İçinde son İkinci makalede mağdurlar, ElevenLabs’ın kendilerine yönelik taciz kampanyalarında nasıl kullanıldığını anlatıyor; bir örnekte, bir aktörün özel bilgilerini (ev adreslerini) klonlanmış bir ses kullanarak paylaşmak için.
Sonra odada bir fil var: ElevenLabs gibi varoluşsal tehdit platformları seslendirme endüstrisine poz veriyor.
Anakart yazıyor Seslendirme sanatçılarından, müşterilerin yapay zekayı sonunda kendilerinin yerini alabilecek sentetik versiyonlar oluşturmak için kullanabilmeleri için, bazen yeterli bir tazminat ödemeden, giderek daha fazla kendi seslerinin haklarını imzalamaları istendiği hakkında. Korku, ses çalışmasının (özellikle ucuz, giriş seviyesi çalışmanın) eninde sonunda yerini yapay zeka tarafından üretilen vokallerin alması ve aktörlerin başvuramayacağı bir durum.
Bazı platformlar bir denge kurmaya çalışıyor. Bu ayın başlarında, ElevenLabs’ın bir rakibi olan Replica Studios, medya sanatçıları birliği üyelerinin seslerinin dijital kopyalarını oluşturmak ve lisanslamak için SAG-AFTRA ile bir anlaşma imzaladı. Bir basın açıklamasında kuruluşlar, düzenlemenin sanatçının onayını sağlamak için “adil” ve “etik” şartlar ve koşullar oluşturduğunu ve dijital sesin kullanımına ilişkin şartların müzakere edilmesinin yeni çalışmalarda ikiye katlandığını söyledi.
Ancak bu bile bazı seslendirme sanatçılarını memnun etmedi – SAG-AFTRA’nınkiler de dahil kendi üyeleri.
ElevenLabs’ın çözümü sesler için bir pazar yeridir. Şu anda alfa aşamasında olan ve önümüzdeki birkaç hafta içinde daha geniş çapta kullanıma sunulması planlanan pazar, kullanıcıların bir ses oluşturmasına, doğrulamasına ve paylaşmasına olanak tanıyor. Staniszewski, başkaları ses kullandığında asıl yaratıcıların tazminat aldığını söylüyor.
“Kullanıcılar her zaman seslerinin kullanılabilirliği ve ücret koşulları üzerinde kontrolü elinde tutar” diye ekledi. “Pazar yeri, AI gelişmelerini yerleşik endüstri uygulamalarıyla uyumlu hale getirmenin yanı sıra ElevenLabs platformuna çok çeşitli sesler getirme yönünde bir adım olarak tasarlandı.”
Seslendirme sanatçıları, ElevenLabs’ın nakit ödeme yapmaması gerçeğiyle ilgili sorun yaşayabilir – en azından şu anda. Mevcut düzende yaratıcıların ElevenLabs’ın premium hizmetlerine yönelik kredi alması var (bazılarının ironik bulduğuna bahse girerim).
Belki de gelecekte, şu anda en iyi finanse edilen sentetik ses girişimleri arasında yer alan ElevenLabs, Papercup, Deepdub, ElevenLabs, Acapela, Respeecher ve Voice.ai gibi yeni başlayan rekabeti ve Big Tech’in yerleşik şirketlerini geride bırakmaya çalışırken bu durum değişecektir. Amazon, Microsoft ve Google gibi. Her durumda, çalışan sayısını yıl sonuna kadar 40 kişiden 100’e çıkarmayı planlayan ElevenLabs, hızla büyüyen sentetik ses pazarında ortalıkta kalmayı ve dalga yaratmayı planlıyor.