Whisper, el sistema de reconocimiento de voz de OpenAI, se convierte en código abierto


Whisper, el sistema de reconocimiento de voz multilingüe desarrollado y potenciado por OpenAI, una empresa especializada en inteligencia artificial, obtuvo una licencia gratuita el 22 de septiembre de 2022. Todo el código que permite el funcionamiento de esta herramienta, así como las explicaciones asociadas, se han publicado en GitHub y por lo tanto son de libre acceso y gratuitas.

Whisper OpenAI, uno de los modelos de reconocimiento de voz más avanzados del mundo

Whisper es un modelo de reconocimiento de voz diseñado por OpenAI. Se sabe que el marco es el origen del modelo de lenguaje GPT-3, que es uno de los más proporcionados y utilizados en el mundo con 175 mil millones de parámetros. Es ella también quien está en el origen del modelo de inteligencia artificial DALL-E 2 que permite crear imágenes a partir de descripciones textuales.

En la misma categoría

Logotipo de Alibaba.

Alibaba abre dos laboratorios de inteligencia artificial

Entrenado usando 680.000 horas de datos multitarea y multilingües, Whisper puede transcribir cada palabra de un individuo casi instantáneamente. Aún más impresionante: puede traducir estas palabras a una gran cantidad de idiomas, incluido el francés. Gracias a este entrenamiento, el sistema es capaz de identificar las múltiples particularidades de una decena de idiomas, pero también los acentos, los sonidos de fondo e incluso palabras muy técnicas, poco utilizadas en un idioma.

La herramienta puede ser utilizada por particulares para traducir automáticamente una película, una serie, un videoclip o un documental, por ejemplo. Para los investigadores de IA, sirve como base para comprender mejor las facetas del reconocimiento de voz y, por lo tanto, perfeccionar el modelo, o incluso crear uno mejor.

¿Por qué Whisper OpenAI se convirtió en código abierto?

De acuerdo a TechCrunch, el paso de Whisper en una versión de código abierto permitirá a los especialistas en inteligencia artificial, que no necesariamente están afiliados a un laboratorio o instituto, avanzar en la investigación en el campo del reconocimiento de voz. La herramienta tiene algunas limitaciones, especialmente en lo que respecta a la predicción.

Para generalizar, Whisper puede incluir palabras en sus transcripciones que en realidad no se pronunciaron. Esto puede suceder cuando algunas palabras habladas son fonéticamente cercanas a otras o cuando una palabra predicha por el sistema funcionaría bien con la hablada originalmente. Otra dificultad es que el sistema tiene más dificultades cuando una persona habla en su idioma nativo (que no sea inglés), porque los datos utilizados para entrenar el modelo no incluyen una gran cantidad de hablantes nativos.

Open AI lo ha reconocido a sí mismo: sus colaboradores ya no tienen tiempo para involucrarse tanto como antes en Whisper, de ahí el interés en hacerlo de código abierto para que todos puedan probarlo para mejorar.



ttn-es-4