Derin L Google gibi hizmetlerden daha incelikli ve kesin olduğunu iddia ettiği çevrimiçi metin çevirisiyle adını duyurdu; bu, Alman girişimini 2 milyar dolarlık bir değerlemeye ve 100.000’den fazla ödeme yapan müşteriye fırlattı.

Yapay zeka hizmetlerine yönelik ilgi artmaya devam ederken DeepL platforma başka bir mod ekliyor: ses. Kullanıcılar artık bir dilde konuşan birini dinlemek ve gerçek zamanlı olarak otomatik olarak başka bir dile çevirmek için DeepL Voice’u kullanabilecek.

İngilizce, Almanca, Japonca, Korece, İsveççe, Felemenkçe, Fransızca, Türkçe, Lehçe, Portekizce, Rusça, İspanyolca ve İtalyanca DeepL’in bugün “duyabildiği” dillerdir. Çevrilmiş altyazılar şu anda DeepL Translator tarafından desteklenen 33 dilin tümü için mevcuttur.

Resim Kredisi:Derin L (yeni bir pencerede açılır) bir altında (yeni bir pencerede açılır) lisans.

DeepL Voice şu anda sonucu bir ses veya video dosyası olarak sunma konusunda yetersiz kalıyor: hizmet gerçek zamanlı, canlı konuşmaları ve video konferansı hedefliyor ve ses olarak değil metin olarak geliyor.

Bunlardan ilkinde, çevirilerinizi bir akıllı telefonda ‘ayna’ olarak görünecek şekilde ayarlayabilirsiniz – fikir, her iki tarafın da çevrilmiş kelimeleri görebilmesi için telefonu bir toplantı masasının üzerine aranıza koymanızdır – veya bir transkripsiyon olarak birisiyle yan yana paylaşırsın. Video konferans hizmeti, çevirilerin altyazı olarak göründüğünü görüyor.

Şirketin kurucusu ve CEO’su (yukarıdaki resimde) Jarek Kutylowski, bir röportajda bunun zamanla değişebilecek bir şey olabileceğini ima etti. Bu DeepL’in sese yönelik ilk ürünü, ancak sonuncusu olması pek mümkün değil. “[Voice] gelecek yıl çevirinin sahneye çıkacağı yer burası” diye ekledi.

Bu ifadeyi destekleyecek başka kanıtlar da var. DeepL’in en büyük rakiplerinden biri olan Google da gerçek zamanlı çevrilmiş altyazıları Meet video konferans hizmetine dahil etmeye başladı. Ayrıca yapay zeka ses uzmanı Eleven Labs gibi sesli çeviri hizmetleri geliştiren çok sayıda yapay zeka girişimi de var (Eleven Labs Dublaj) ve “derin sahte” sesler ve sesle eşleşen videolar kullanarak çeviriler oluşturan Panjaya.

İkincisi, Eleven Labs’ın API’sini kullanıyor ve Kutylowski’ye göre Eleven Labs, çeviri hizmetini desteklemek için DeepL’in teknolojisini kullanıyor.

Henüz başlatılacak tek özellik ses çıkışı değil.

Şu anda ses ürünü için de bir API bulunmamaktadır. DeepL’in ana işi B2B’ye odaklanıyor ve Kutylowski, şirketin doğrudan ortaklar ve müşterilerle çalıştığını söyledi.

Çok fazla entegrasyon seçeneği de yok: Şu anda DeepL’in altyazılarını destekleyen tek görüntülü arama hizmeti, “müşterilerimizin çoğunu kapsayan” Teams’tir Kutylowski, dedi. Zoom veya Google Meet’in DeepL Voice’u ne zaman dahil edeceğine veya dahil edip etmeyeceğine dair hiçbir bilgi yok.

Bu ürünün DeepL kullanıcıları için gelmesi uzun zaman alacak gibi görünecek, bunun nedeni sadece çeviriyi amaçlayan diğer yapay zeka ses hizmetlerinin bolluğuyla dolu olmamız değil. Kutylowski, bunun DeepL’in piyasaya sürüldüğü 2017 yılından bu yana müşterilerden gelen 1 numaralı talep olduğunu söyledi.

Beklemenin bir nedeni de DeepL’in ürününü geliştirirken oldukça bilinçli bir yaklaşım izlemesi. Diğer şirketlerin büyük dil modellerine (LLM’ler) dayanan ve ince ayar yapan yapay zeka uygulamaları dünyasındaki diğer pek çok uygulamanın aksine, DeepL’in amacı hizmetini sıfırdan oluşturmaktır. Temmuz ayında şirket piyasaya sürülmüş GPT-4’ten ve Google ve Microsoft’tan daha iyi performans gösterdiğini söylediği çeviriler için optimize edilmiş yeni bir LLM, özellikle de asıl amacının çeviri olması nedeniyle. Şirket aynı zamanda yazılı çıktısının ve sözlüğünün kalitesini de geliştirmeye devam etti.

Benzer şekilde, DeepL Voice’un benzersiz avantajlarından biri de gerçek zamanlı olarak çalışacak olmasıdır; bu önemlidir, çünkü piyasadaki pek çok “Yapay Zeka çevirisi” hizmeti aslında gecikmeli olarak çalışır, bu da onların canlı durumlarda kullanımını zorlaştırır veya imkansız hale getirir. DeepL’in ele aldığı kullanım durumu budur.

Kutylowski, yeni ses işleme ürününün metin tabanlı çevirilere odaklanmasının bir başka nedeninin de bu olduğunu ima etti: Bunlar çok hızlı hesaplanıp üretilebilirken, işleme ve yapay zeka mimarisinin ses ve çeviri üretmeden önce hala kat etmesi gereken bir yol var. video kadar hızlı.

Video konferans ve toplantılar muhtemelen DeepL Voice’un kullanım alanlarıdır ancak Kutylowski, şirketin öngördüğü bir diğer önemli alanın, örneğin restoranlardaki ön saflardaki çalışanların müşterilerle daha kolay iletişim kurmaya yardımcı olmak için hizmeti kullanabileceği hizmet sektörü olduğunu belirtti.

Bu yararlı olabilir ancak aynı zamanda hizmetin en zorlu noktalarından birini de vurgular. Hepimizin birdenbire veri koruma konusunda daha fazla farkına vardığı ve yeni hizmet ve platformların özel veya özel bilgileri nasıl benimsediğine ilişkin endişelerin arttığı bir dünyada, insanların seslerinin duyurulmasına ne kadar istekli olacaklarını zaman gösterecek. bu şekilde kullanılır.

Kutylowski, seslerin tercüme edilmek üzere sunucularına gitmesine rağmen (işleme cihazda gerçekleşmiyor), sistemlerinde hiçbir şeyin saklanmadığını veya yüksek lisans eğitimlerini eğitmek için kullanılmadığını vurguladı. Sonuçta DeepL, müşterilerinin GDPR’yi veya diğer veri koruma düzenlemelerini ihlal etmediklerinden emin olmak için onlarla birlikte çalışacaktır.



genel-24