Yapay zeka konusunda uzmanlaşmış bir şirket olan OpenAI tarafından geliştirilen ve desteklenen çok dilli ses tanıma sistemi Whisper, 22 Eylül 2022’de ücretsiz lisans altına alındı. Bu aracın çalışmasına izin veren tüm kodlar ve ilgili açıklamalar şu adreste yayınlandı. GitHub ve bu nedenle serbestçe erişilebilir ve ücretsizdir.

Dünyanın en gelişmiş konuşma tanıma modellerinden biri olan Whisper OpenAI

Whisper, OpenAI tarafından tasarlanmış bir konuşma tanıma modelidir. Çerçevenin, 175 milyar parametre ile dünyada en çok sağlanan ve kullanılan GPT-3 dil modelinin kökeni olduğu bilinmektedir. Metinsel açıklamalardan görüntüler oluşturmayı mümkün kılan yapay zeka modeli DALL-E 2’nin kökeni de odur.

Aynı kategoride

Alibaba logosu.

Alibaba iki yapay zeka laboratuvarı açıyor

680.000 saatlik çok dilli, çok görevli veri kullanılarak eğitilen Whisper, bir bireyin her kelimesini neredeyse anında kopyalayabilir. Daha da etkileyici: Bu kelimeleri Fransızca da dahil olmak üzere çok sayıda dile çevirebilir. Bu eğitim sayesinde sistem, bir düzine dilin birçok özelliğini, aynı zamanda aksanları, arka plandaki sesleri ve hatta bir dilde çok az kullanılan çok teknik kelimeleri bile tanımlayabilir.

Araç, örneğin bir filmi, diziyi, video klibi veya belgeseli otomatik olarak çevirmek için bireyler tarafından kullanılabilir. AI araştırmacıları için, ses tanımanın özelliklerini daha iyi anlamak ve böylece modeli mükemmelleştirmek, hatta daha iyi bir model oluşturmak için bir temel görevi görür.

Whisper OpenAI neden açık kaynak oldu?

Binaen TechCrunch, Whisper’ın açık kaynaklı bir sürümde geçişi, bir laboratuvara veya enstitüye bağlı olması gerekmeyen yapay zeka uzmanlarına ses tanıma alanındaki araştırmaları ilerletme olanağı sağlayacaktır. Aracın, özellikle de tahmin söz konusu olduğunda, bazı sınırlamaları vardır.

Genelleme yapmak gerekirse, Fısıltı, transkripsiyonlarında gerçekte konuşulmayan sözcükleri içerebilir. Bu, bazı konuşulan kelimeler fonetik olarak diğerlerine yakın olduğunda veya sistem tarafından tahmin edilen bir kelime, orijinal olarak söylenenle iyi çalıştığında olabilir. Diğer bir zorluk ise, bir kişi kendi ana dilinde (İngilizce dışında) konuştuğunda sistemin daha fazla mücadele etmesidir, çünkü modeli eğitmek için kullanılan veriler çok sayıda anadili konuşmacı içermemektedir.

Open AI bunu kendisi de fark etti: işbirlikçilerinin artık Whisper’a eskisi kadar dahil olmak için zamanları yok, bu nedenle herkesin deneyebilmesi için onu açık kaynak yapmaya ilgi duyuyor.



genel-16