Chatear en voz alta con ChatGPT ahora es posible

En ChatGPT, todos los intercambios con inteligencia artificial (IA) se realizan por escrito. Este ha sido el caso desde el inicio del agente conversacional, introducido en noviembre de 2022. Sin embargo, esto cambiará. Este lunes 25 de septiembre OpenAI anunció que los usuarios de su aplicación móvil pronto podrán conversar con la IA en voz alta. También podrá analizar las imágenes que le envíen. Por el momento, estas nuevas funciones sólo estarán accesibles para los suscriptores de ChatGPT Plus, una versión paga del famoso chatbot.

Cinco voces diferentes

Para ofrecer chat de voz, OpenAI se basa en varias innovaciones. Entre ellos, Whisper, un modelo que transcribe las palabras del usuario en texto. Otro modelo de texto a voz expresa las respuestas de ChatGPT de forma oral.

El desafío sigue siendo humanizar la representación. Para ello, la compañía americana ha desarrollado, con la ayuda de varios actores profesionales, cinco voces sintéticas: Sky, Juniper, Cove, Ember y Breeze. Los fanáticos de los chatbots podrán elegir el que más les convenga. Así, la IA será” capaz de generar un sonido similar al humano sólo a partir de texto y unos pocos segundos de muestras de voz “.

Gracias a estas tecnologías, el chatbot podrá responder preguntas de forma oral, leer historias, compartir información sobre un tema… Todo sin que el usuario tenga que escribir largas frases. El objetivo de esta nueva funcionalidad no es sólo simplificar el proceso de uso de la herramienta, sino sobre todo hacer la interacción cada vez más humana. Además, ayuda a eliminar barreras a la accesibilidad.

Sin embargo, el poder de tales modelos presenta numerosos riesgos de abuso y fraude, como el robo de identidad. “ Por eso utilizamos esta tecnología para potenciar un caso de uso específico: el chat de voz. », insistió OpenAI. Por lo tanto, el modelo no estará disponible para el llamado uso “general”.

La IA ahora es capaz de procesar imágenes

Además de voz, ChatGPT también tiene capacidades de búsqueda multimodal. Ahora, los usuarios podrán importar imágenes a una conversación para su análisis mediante IA. El objetivo es ofrecer respuestas más precisas a las preguntas formuladas.

Por ejemplo, será posible enviar una foto del contenido de su refrigerador para obtener ideas de comidas, o incluso enviar una foto de un problema de matemáticas para obtener ayuda. Las posibilidades son numerosas.

ChatGPT ahora puede ver, oír y hablar. A lo largo de las próximas dos semanas, los usuarios de Plus podrán tener conversaciones de voz con ChatGPT (iOS y Android) e incluir imágenes en las conversaciones (todas las plataformas). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
—OpenAI (@OpenAI) 25 de septiembre de 2023

Con estas funciones nuevas y más interactivas, OpenAI busca ponerse al día con sus competidores, Bing Chat y Bard, los cuales introdujeron innovaciones similares este verano.

ttn-es-4

Emergencia en la victoria de Holanda: el segundo entrenador de Hungría, Szalai, vuelve a casa

La reina Camila experimentó una gran tristeza

La llegada de una central eléctrica a Huizen provoca tensión y el barrio acude a los tribunales

El príncipe Harry, normalmente “manso”, es claramente más feliz en viajes en solitario lejos de Meghan y de los “discursos dictados”, dice un experto real

Chatear en voz alta con ChatGPT ahora es posible

Cinco voces diferentes

La IA ahora es capaz de procesar imágenes