Dil engellerini aşmak, insanları birbirine bağlamak – Spotify, en son işlevini sunarken kendisine bu asil hedefleri belirledi. Ancak sesli çeviri, çeviriden daha fazlasını yapabilir. TECHBOOK editörü Natalie Wetzel, yeni yapay zeka fonksiyonunun gerçekte ne kadar iyi olduğunu duydu.
Spotify’da yaklaşık 70.000 Almanca podcast ile yerel podcast sahnesi oldukça sağlam. Teklif, profesyonel haber podcast’lerinden ticari eğlence formatlarına, düşük eşikli hobi kayıtlarına ve aradaki tüm nüanslara kadar uzanır. Konuların çeşitliliği de büyüktür ve giderek çeşitlenmektedir. Ancak yine de bir veya iki kullanıcı Spotify’ın elinde kalan 3,5 milyon podcast’e merakla bakıyor. Dil engeli olmasaydı. Ancak Spotify tam da bu soruna yönelik bir çözüm geliştirdi: Yapay zeka tabanlı ses çevirisi.
Dil engelini aşan bir köprü olarak yapay zeka
Sonuç basit olduğu kadar ustacadır: Yapay zeka, podcast’i hedef dile çevirir ve konuşan kişinin sesini ve konuşma alışkanlıklarını “klonlar”. “Kültürler, ülkeler ve topluluklar arasında paylaştığımız hikayeler bizi bir araya getiriyor. Ve çoğu zaman hikayelere hikayelerin kendisi kadar ağırlık veren de konuşmacıların sesleridir.” Spotify bu biraz çiçekli formülasyonla açılıyor. ifadesesli çevirinin pilot aşamasını duyurdu. Şu andan itibaren, en sevdiğiniz podcast’i (başlangıçta yabancı dilde) kendi ana dilinizde dinlemek – bir gün hedefiniz bu olmalı.
Sesli Çeviri – bu şekilde çalışır
Spotify spor podcast ağı “The Ringer”ın kurucusu Bill Simmons, Mayıs 2023 gibi erken bir tarihte, İsveçli müzik akışı sağlayıcısının sesleri taklit eden bir yapay zeka işlevi üzerinde çalıştığını açıklamıştı. Simmons, tanınmış podcast sunucularının yapay zeka tarafından oluşturulan seslerinin reklam amaçlı kullanımını tartıştı. Tabii ki sadece onların rızasıyla. Spotify’ın kendisi o zamanlar hâlâ dikkat çekmiyordu: “Reklamcılık gelecekteki araştırmalar için ilginç bir alan, ancak bu noktada açıklayacak bir şeyimiz yok.” Bu durum, şu anda tanıtılan Sesli Çeviri ile değişti, ancak şu alanda değil reklam.
Spotify’ın Sesli Çevirisi, OpenAI’nin bir yapay zeka transkripsiyon aracı olan Whisper tarafından desteklenmektedir. Konuşma tanıma sistemi, ağırlıklı olarak İngilizce olan yüz binlerce ses dosyasıyla eğitildi ve artık konuşmayı seçilen diller arasında ileri geri çevirebiliyor. Aynı zamanda Whisper, podcast sunucularının ses tonu, duraklamalar ve dolgu sözcükler gibi karakteristik konuşma özelliklerini hedef dile aktarabiliyor.
Ayrıca okuyun: Suç hayranları için en iyi gerçek suç podcast’leri
Bir örnek ister misiniz?
Kendinizi Whisper’ın performansına ikna etmek istiyorsanız özel olarak tasarlanmış olanı kullanabilirsiniz. Merkez bazı pilot bölümleri dinleyin. 25 Eylül’den bu yana Whisper’ın İngilizceden İspanyolcaya çevirdiği üç bölüme buradan ulaşabilirsiniz:
- DOAC: E256 – Dr. Mindy Pelz (15 Haziran 2023)
- Lex Fridman Podcast’i: #390 – Yuval Noah Harari (17 Temmuz 2023)
- KB: Dax Shepard ile Koltuk Uzmanı (14 Ağustos 2023)
Önümüzdeki birkaç gün ve hafta içinde Almanca ve Fransızcaya daha fazla çeviri yapılacak. Spotify ayrıca pilot seriye daha fazla podcast eklemek istediğini de açıkladı. Bunlar arasında Dax Shepard’ın “DRS ile kazanılan eff”i, The Ringer’ın “The Rewachtables”ı ve “Daily Show”un eski sunucusu Trevor Noah’ın yeni podcast’i yer alıyor. Burada zaten spor ve sosyal konulara belli bir odaklanma açıkça görülüyor.
Sesli çeviriyi kimler kullanabilir?
Spotify’ın Sesli Çeviriyi daha da genişletip genişletmeyeceği ve bunu daha geniş bir podcast yapımcıları yelpazesinin kullanımına sunup sunmayacağı ve nasıl sunacağı, büyük ölçüde pilot aşamadaki geri bildirimlere bağlı. Şu ana kadar çevrilen bölümlerin en az bir buçuk aylık olması, Whisper’ın henüz tam anlamıyla sorunsuz çalışmadığını gösteriyor. Ayrıca sunucularla olan işbirliğinin tam olarak nasıl görüneceği ve Spotify’ın gelecek için aklında hangi koşulların olduğu da belli değil. Sesli çeviri kullanımının üreticilere maliyeti var mı ve eğer öyleyse ne kadar?
Şu anda genel kural, sesli çeviriyle düzenlenen podcast bölümlerinin tüm kullanıcılara sunulmasıdır. Gelecekte, ücretsiz aboneliğe sahip olanlar da dahil olmak üzere bu fonksiyonun herkes tarafından erişilebilir olup olmayacağı henüz belli değil. Spotify’ın kendisi de dil engelini ortadan kaldırarak kullanıcı sayısını artırmayı umut edebilir. Her halükarda, sesli çeviri yaygınlaştıktan sonra bazı podcast yayıncılarının erişiminin büyük ölçüde artması muhtemeldir. Ticari podcast’lerden elde edilen gelirlerin hızla artması, modeli kesinlikle daha az çekici hale getirmiyor. Ancak, sesli çevirinin tüm podcast yayıncılarına sunulması ve kullanıcıların en sevdikleri podcast’leri kendi ana dillerinde gerçekten dinleyebilmeleri muhtemelen biraz zaman alacak.
TECHBOOK anlamına gelir
“Şahsen ben coşku ve şüphecilik arasında kaldım. Konseptin kendisi harika ve hiç yabancı dil bilmeyen ya da sadece birkaç yabancı dil bilen herkes için oyunun kurallarını değiştirecek. Önce Japonca yemek pişirme podcast’lerine dalmak için Japonca öğrenmek ya da doğrudan bilgi almak için Lehçe öğrenmek istemiyorum. Ve mükemmel bir İngilizce bilgisine sahip olsanız bile, bazen metroda otururken NFL yorumcularının mikrofona çatlayan seslerle bağırdıkları teknik terimleri anlamak zor olabilir. Spotify’ın Sesli Çevirisi bireysel kullanıcılara büyük rahatlık sağlayabilir ve toplulukların bağlantı kurmasına yardımcı olabilir. Keşke özellik hazır olsaydı.
Ancak Spotify şu anda hangi podcast’lerin uluslararası olarak erişilebilir olması gerektiğini hâlâ belirliyor. Ve bunlar, şaşırtıcı olmayan bir şekilde, köklü sunuculardan gelen büyük podcast’ler. Dil seçimi başlangıçta olağan şüphelilerle sınırlıdır: İngilizce, İspanyolca, Fransızca ve Almanca. Spotify’ın yakında Avrupa dışındaki diller de dahil olmak üzere diğer dillere ve dillerden çeviriler de sunacağını umabiliriz.
İlginç olan, çevrilen podcast’lerin sonuçta hem teknik hem de insani düzeyde ne kadar özgün olabileceğidir. Kişiselleştirme Spotify Başkan Yardımcısı Ziad Sultan, “Yaratıcının sesini eşleştiren Sesli Çeviri, dünya çapındaki dinleyicilerin yeni podcast yayıncılarını her zamankinden daha özgün bir şekilde keşfetmesine ve onlardan ilham almasına olanak tanıyor” diyor.
Mevcut çevirileri dinledim ancak şu ana kadar sadece İspanyolca olarak mevcut olduğundan ancak sınırlı bir fikir verebiliyorum. Sesli çeviri, özellikle konu tam ton olduğunda, sunucunun sesini henüz tam olarak mükemmel şekilde taklit edemiyor. Ancak duraklamalar, vurgudaki dalgalanmalar, hız ve vokal melodisi şaşırtıcı derecede orijinaline yakın görünüyor. Her şeyden önce, seslerin yapay kökeni neredeyse hiç duyulmuyor. Bu açıdan sesli çevirinin kesinlikle potansiyeli var. Artık aracın mümkün olduğunca çok sayıda podcast yayıncısının kullanımına mümkün olduğunca kolay bir şekilde sunulması gerekiyor.” – Natalie Wetzel