En ChatGPT, todos los intercambios con inteligencia artificial (IA) se realizan por escrito. Este ha sido el caso desde el inicio del agente conversacional, introducido en noviembre de 2022. Sin embargo, esto cambiará. Este …
En ChatGPT, todos los intercambios con inteligencia artificial (IA) se realizan por escrito. Este ha sido el caso desde el inicio del agente conversacional, introducido en noviembre de 2022. Sin embargo, esto cambiará. Este lunes 25 de septiembre OpenAI anunció que los usuarios de su aplicación móvil pronto podrán conversar con la IA en voz alta. También podrá analizar las imágenes que le envíen. Por el momento, estas nuevas funciones sólo estarán accesibles para los suscriptores de ChatGPT Plus, una versión paga del famoso chatbot.
Cinco voces diferentes
Para ofrecer chat de voz, OpenAI se basa en varias innovaciones. Entre ellos, Whisper, un modelo que transcribe las palabras del usuario en texto. Otro modelo de texto a voz expresa las respuestas de ChatGPT de forma oral.
El desafío sigue siendo humanizar la representación. Para ello, la compañía americana ha desarrollado, con la ayuda de varios actores profesionales, cinco voces sintéticas: Sky, Juniper, Cove, Ember y Breeze. Los fanáticos de los chatbots podrán elegir el que más les convenga. Así, la IA será” capaz de generar un sonido similar al humano sólo a partir de texto y unos pocos segundos de muestras de voz “.
Gracias a estas tecnologías, el chatbot podrá responder preguntas de forma oral, leer historias, compartir información sobre un tema… Todo sin que el usuario tenga que escribir largas frases. El objetivo de esta nueva funcionalidad no es sólo simplificar el proceso de uso de la herramienta, sino sobre todo hacer la interacción cada vez más humana. Además, ayuda a eliminar barreras a la accesibilidad.
Sin embargo, el poder de tales modelos presenta numerosos riesgos de abuso y fraude, como el robo de identidad. “ Por eso utilizamos esta tecnología para potenciar un caso de uso específico: el chat de voz. », insistió OpenAI. Por lo tanto, el modelo no estará disponible para el llamado uso “general”.
La IA ahora es capaz de procesar imágenes
Además de voz, ChatGPT también tiene capacidades de búsqueda multimodal. Ahora, los usuarios podrán importar imágenes a una conversación para su análisis mediante IA. El objetivo es ofrecer respuestas más precisas a las preguntas formuladas.
Por ejemplo, será posible enviar una foto del contenido de su refrigerador para obtener ideas de comidas, o incluso enviar una foto de un problema de matemáticas para obtener ayuda. Las posibilidades son numerosas.
ChatGPT ahora puede ver, oír y hablar. A lo largo de las próximas dos semanas, los usuarios de Plus podrán tener conversaciones de voz con ChatGPT (iOS y Android) e incluir imágenes en las conversaciones (todas las plataformas). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
—OpenAI (@OpenAI) 25 de septiembre de 2023
Con estas funciones nuevas y más interactivas, OpenAI busca ponerse al día con sus competidores, Bing Chat y Bard, los cuales introdujeron innovaciones similares este verano.