Görüntü oluşturma ve meme oluşturma programı DALL-E’nin ve güçlü metin otomatik tamamlama motoru GPT-3’ün arkasındaki şirket olan OpenAI, sesi yazılı metne dönüştürmek için yeni, açık kaynaklı bir sinir ağı başlattı (aracılığıyla TechCrunch). Adı Fısıltı ve şirket diyor “İngilizce konuşma tanıma konusunda insan düzeyinde sağlamlığa ve doğruluğa yaklaşır” ve ayrıca İspanyolca, İtalyanca ve Japonca gibi diğer dilleri otomatik olarak tanıyabilir, yazıya dökebilir ve çevirebilir.
Röportajları sürekli kaydeden ve yazıya döken biri olarak, bu haber hakkında hemen heyecanlandım – sesi doğrudan bilgisayarımdan güvenli bir şekilde kopyalamak için kendi uygulamamı yazabileceğimi düşündüm. Otter.ai ve Trint gibi bulut tabanlı hizmetler çoğu şey için çalışıyor ve nispeten güvenli olsa da, ses dosyası internetten uzak durursa benim veya kaynaklarımın daha rahat hissedeceğim bazı röportajlar var.
Bunu kullanmak hayal ettiğimden daha kolay çıktı; Bilgisayarımda zaten Python ve çeşitli geliştirici araçları kurulu olduğundan, Whisper’ı yüklemek tek bir Terminal komutu çalıştırmak kadar kolaydı. 15 dakika içinde, kaydettiğim bir test ses klibini kopyalamak için Whisper’ı kullanabildim. Python, FFmpeg, Xcode ve Homebrew kurulumuna sahip olmayan nispeten teknoloji meraklısı biri için muhtemelen bir veya iki saate yakın sürer. Zaten süreci çok daha basit ve kullanıcı dostu hale getirmek için çalışan biri var, buna birazdan değineceğiz.
OpenAI iken kesinlikle bu kullanım durumunu bir olasılık olarak gördüm, şirketin bu sürümle temel olarak araştırmacıları ve geliştiricileri hedeflediği oldukça açık. İçinde Whisper’ı duyuran blog yazısı, ekip, kodunun “yararlı uygulamalar oluşturmak ve sağlam konuşma işleme konusunda daha fazla araştırma yapmak için bir temel olarak hizmet edebileceğini” ve “Whisper’ın yüksek doğruluğunun ve kullanım kolaylığının geliştiricilerin çok daha geniş bir ses arabirimi grubuna ses arabirimleri eklemesine olanak sağlayacağını umduğunu” söyledi. uygulamalar.” Ancak bu yaklaşım hala dikkate değerdir – şirketin DALL-E veya GPT-3 gibi en popüler makine öğrenimi projelerine sınırlı erişimi vardır. bir arzuyu belirtmek “gerçek dünya kullanımı hakkında daha fazla bilgi edinmek ve güvenlik sistemlerimizi yinelemeye devam etmek.”
Ayrıca çoğu insan için Whisper’ı kurmanın tam olarak kullanıcı dostu bir süreç olmadığı gerçeği de var. Ancak gazeteci Peter Sterne, GitHub geliştirici savunucusu Christina Warren ile işbirliği yaptı. denemek ve bunu düzeltmek için, Whisper’ın makine öğrenimi modelini temel alan “gazeteciler için ücretsiz, güvenli ve kullanımı kolay bir transkripsiyon uygulaması” oluşturduklarını duyurdu. Sterne ile konuştum ve bazı röportajlar yaptıktan sonra Stage Whisper adlı programın var olması gerektiğine karar verdiğini ve bunun “insan transkripsiyoncular dışında şimdiye kadar kullandığım en iyi transkripsiyon” olduğuna karar verdiğini söyledi.
Whisper tarafından üretilen bir transkripsiyonu Otter.ai ve Trint’in aynı dosya için ortaya koyduklarıyla karşılaştırdım ve bunun nispeten karşılaştırılabilir olduğunu söyleyebilirim. Hepsinde, sesi iki kez kontrol etmeden asla alıntıları kopyalayıp bir makaleye yapıştırmayacağım kadar yeterli hata vardı (bu, elbette, hangi hizmeti kullanırsanız kullanın, yine de en iyi uygulamadır). Ama Whisper’ın versiyonu kesinlikle işime yarardı; İhtiyacım olan bölümleri bulmak için arama yapabilirim ve ardından bunları manuel olarak iki kez kontrol edebilirim. Teorik olarak, Stage Whisper aynı modeli kullanacağından, yalnızca etrafına sarılmış bir GUI ile tam olarak aynı performansı göstermelidir.
Sterne, Apple ve Google teknolojisinin birkaç yıl içinde Stage Whisper’ı geçersiz kılabileceğini itiraf etti – Pixel’in ses kaydedici uygulaması yıllardır çevrimdışı transkripsiyonlar yapabildi ve bu özelliğin bir sürümü kullanılmaya başlandı. diğer bazı Android cihazlara yaymakve Apple’ın yerleşik çevrimdışı dikte özelliği iOS (şu anda onunla ses dosyalarını kopyalamanın iyi bir yolu olmasa da). “Ama o kadar bekleyemeyiz,” dedi Sterne. “Bizim gibi gazetecilerin bugün iyi otomatik transkripsiyon uygulamalarına ihtiyacı var.” Fısıltı tabanlı uygulamanın çıplak kemik sürümünün iki hafta içinde hazır olmasını umuyor.
Açık olmak gerekirse, Whisper, kullanımı ne kadar kolay olursa olsun, muhtemelen Otter.ai ve Trint gibi bulut tabanlı hizmetleri tamamen eskimeyecek. Birincisi, OpenAI’nin modelinde geleneksel transkripsiyon hizmetlerinin en büyük özelliklerinden biri eksik: kimin ne söylediğini etiketleyebilme. Sterne, Stage Whisper’ın muhtemelen bu özelliği desteklemeyeceğini söyledi: “kendi makine öğrenimi modelimizi geliştirmiyoruz.”
Bulut sadece bir başkasının bilgisayarıdır – bu da muhtemelen biraz daha hızlı olduğu anlamına gelir
Yerel işlemenin avantajlarını elde ederken, dezavantajlarını da elde edersiniz. Bunlardan en önemlisi, dizüstü bilgisayarınızın profesyonel bir transkripsiyon hizmetinin kullandığı bilgisayarlardan neredeyse kesinlikle önemli ölçüde daha az güçlü olmasıdır. Örneğin, 24 dakikalık bir röportajın sesini M1 MacBook Pro’mda çalışan Whisper’a besledim; tüm dosyayı yazıya dökmek yaklaşık 52 dakika sürdü. (Evet, Intel yerine Python’un Apple Silicon sürümünü kullandığından emin oldum.) Otter, sekiz dakikadan daha kısa bir sürede bir metin tükürdü.
OpenAI’nin teknolojisinin büyük bir avantajı var – fiyat. Bulut tabanlı abonelik hizmetleri, bunları profesyonelce kullanıyorsanız neredeyse kesinlikle size pahalıya mal olacaktır (Otter’ın ücretsiz bir katmanı vardır, ancak yakında yapılacak değişiklikler, işleri sık sık yazıya döken insanlar için daha az kullanışlı hale getirecektir) ve yerleşik transkripsiyon özellikleri -gibi platformlara Microsoft Word veya Pixel, ayrı yazılım veya donanım için ödeme yapmanızı gerektirir. Stage Whisper – ve Whisper’ın kendisi – ücretsizdir ve sahip olduğunuz bilgisayarda çalışabilir.
Yine, OpenAI, Whisper için güvenli bir transkripsiyon uygulamasının temeli olmaktan daha yüksek umutlara sahip – ve araştırmacıların bununla ne yapacakları veya eğitilmiş makine öğrenimi modeline bakarak ne öğrenecekleri konusunda çok heyecanlıyım. “Web’den toplanan 680.000 saat çok dilli ve çok görevli denetimli veri” üzerine. Ancak günümüzde gerçek ve pratik bir kullanıma sahip olması onu daha da heyecanlı kılıyor.