
Ok Google, Alexa, di Siri… Estas palabras, casi todo el mundo las ha escuchado. No es de extrañar, ya que los asistentes de voz se están extendiendo constantemente. Para 2024, este mercado debería representar incluso 7.500 millones de dólares. Sin embargo, eran casi inexistentes hace 11 años, cuando se lanzó Siri en el iPhone 4S. Esta observación no debe eclipsar otra: las críticas y la desconfianza de los usuarios hacia los asistentes de voz no han desaparecido, al contrario. Para hacer un balance de este tema, Siècle Digital habló con dos expertos. El primero es Joseph Dureau, vicepresidente de experiencia de voz en Sonos. El segundo es Luc Julia, co-creador de Siri, el asistente de Apple.
Cultura digital está disponible en Spotify – Podcasts de Apple – Deezer – Podcasts de Google – Un molde.

La Casa Blanca empieza a regular el uso de la inteligencia artificial
El origen de los asistentes de voz: Internet y los 90
Los asistentes de voz se han vuelto comunes. Forman parte de la vida cotidiana de cientos de millones de personas en todo el mundo. Pero básicamente, ¿qué es un asistente de voz? Según la Comisión Nacional de Informática y Libertades (CNIL), un asistente de voz es ” un conjunto de recursos de software que permite realizar procesamientos de voz y lenguaje para responder a la solicitud de un usuario “.
Hoy están en todas partes. En teléfonos inteligentes, automóviles o incluso en hogares. Sin embargo, esta tecnología no es tan antigua, aunque es posible encontrar sus orígenes ya en la década de 1990. Esos fueron los años del desarrollo informático. Con esta tendencia se están desarrollando software que algunos podrían llamar asistentes de voz. Permitieron que un usuario dictara lo que quería escribir. Uno de los primeros de su tipo es Dragon Dictate, que apareció en 1993.
Al mismo tiempo, la década de los 90 también es el comienzo de Internet y los motores de búsqueda. Una cantidad inconmensurable de información se vuelve accesible. Algunos se preguntan cuál es la mejor manera de consultar estos datos. Este es el caso de un francés que emigró a Estados Unidos. Entre la irrupción de internet y la aparición del software, se le ocurrirá una idea: crear un asistente virtual con el que sería posible discutir y que podría dar respuestas a nuestras preguntas. Este hombre es Luc Julia, el co-creador de Siri, el asistente de Apple: ” Hubieras pensado que iba a ser el pequeño grillo en nuestro hombro, con quien íbamos a hablar todo el día, era una especie de idea, el concepto en los 9 años.0”.
En un principio, por tanto, la idea era ir mucho más allá, crear verdaderos agentes conversacionales. Sin embargo, las tecnologías utilizadas han progresado desde 2011. “ En los años 2013 – 2014 llegó un nuevo tipo de asistente (…). En lugar de usar aprendizaje automático, usamos aprendizaje profundo, así que algo más robusto “, explica Luc Julia. “ Alexa utiliza todo el potencial de esta tecnología “, señala.
El aprendizaje automático permite que los algoritmos aprendan, lo que mejora su rendimiento al realizar una tarea específica. El aprendizaje profundo es una técnica de aprendizaje automático que permite que los algoritmos aprendan reglas más complejas y realicen tareas más avanzadas.
“Muchos usuarios tenían micrófonos en sus sistemas, pero no los usaban”
Hoy en día, los asistentes de voz están presentes en el día a día de cientos de millones de personas. Por ejemplo, 100 millones de estadounidenses usan regularmente un asistente de voz. En Francia, según un estudio realizado por Isoskéle para LaPoste en 2021, nada menos que 20 millones de franceses utilizan asistentes de voz. Una tasa de penetración que ha ido en aumento en los países más ricos desde 2011. Al final, más de uno de cada dos franceses utiliza un asistente de voz.
En este mercado destacan tres asistentes: Alexa, Google Assistant y Siri. Algunos gigantes se han embarcado en la aventura, sin éxito. Estaba, por ejemplo, Bixby de Samsung o Cortana de Microsoft. Sin embargo, estos tres son los más extendidos y multitarea. Pueden responder a multitud de preguntas, proporcionar varios tipos de servicios, como reproducir música o programar recordatorios. Este es uno de los dos tipos de ayudantes que existen. Los otros están especializados en un campo, una tarea. Al igual que el asistente de Sonos, Sonos Voice Control, lanzado en junio de 2022 en Estados Unidos.
Este último solo se puede usar en altavoces Sonos y solo para controlar la música. Por su funcionamiento responde a las principales críticas e inquietudes de los consumidores: el manejo de los datos personales y la confidencialidad. ” Hicimos una observación: teníamos muchos usuarios que tenían micrófonos en sus sistemas Sonos, pero que no los usaban. “dice Joseph Dureau, vicepresidente de experiencia de voz en Sonos. ” Cuando se les pregunta por qué, la razón que dan es la preocupación por su privacidad. “, él dice.
Los usuarios siguen siendo muy sospechosos
De hecho, los usuarios siguen siendo muy circunspectos. Según el experto de Sonos, el problema fundamental de los asistentes de voz es ” la gestión de datos personales “.
Según un estudio realizado por Microsoft en 2019, El 41% de los usuarios de asistentes virtuales desconfían de sus dispositivos por motivos de privacidad y escucha pasiva. El miedo a que Alexa escuche constantemente a los usuarios está muy extendido. Un miedo que no tiene razón de ser según Luc Julia. ” Hay que ser claros, no están del todo locos Apple, Amazon y demás. Todavía cometen grandes errores. Entonces, cuando decimos “Alexa siempre nos está escuchando”, no es cierto. “, afirma el creador de Siri. ” Nada se guarda para ser guardado. Se analiza para mejorar el modelo y se anonimiza. En las condiciones generales de uso, nunca las lees, pero todo lo que está marcado “, detalla.
Los asistentes multitarea, que utilizan tecnología de aprendizaje profundo, son, por tanto, los más destacados, ya que operan a través de la nube. Recogen muchos datos. Datos que se pueden revender a socios publicitarios, una práctica regulada pero no ilegal. El desarrollo y funcionamiento de este tipo de asistentes son costosos, por lo que las empresas necesitan encontrar fuentes de financiación. La venta de datos personales es una de ellas. Al igual que la distribución de anuncios. Amazon, por ejemplo, planea que Alexa responda preguntas comunes y básicas con anuncios.
Por último, los asistentes de voz destacan por su forma de interactuar y responder en determinados momentos. En 2019, la Unesco publicó un informe en el que denuncia los estereotipos sexistas de determinados asistentes de voz. En particular, critica la forma en que los asistentes personales están programados para responder a la agresión verbal con frases con connotaciones sexuales. Por ejemplo, por un tiempo, en el insulto ” dile a Siri que eres una perra “, respondió el asistente de Apple” si pudiera me sonrojaría “.
Asistentes de voz locales, ¿la solución? ” Imposible “
La tecnología local utilizada por Sonos responde, por tanto, a la mayoría de estas críticas. “Nuestro asistente no es un generalista, se concentra en controlar la música, el sistema”, comienza explicando Joseph Dureau. “ Al cambiar el perímetro del asistente, te permite tener una solución diferente en cuanto a privacidad, ya que todo el procesamiento de lo que dices se hace localmente, en el asistente con el que estás hablando. “, completa. Según él, esta solución también permitiría tener asistentes más rápidos y precisos.
¿De ahí a pensar que es el futuro? “ Eso es imposible », responde Luc Julia. ” Local es interesante, pero limitado. Tendrías que imaginar que básicamente tienes todo Internet en tu dispositivo local “, el Insiste. “ Tenemos reacciones positivas, muchas personas nos comentan que esta es la solución que estaban esperando “, sostiene por su parte Joseph Dureau.
Por lo tanto, la tendencia hacia la operación local puede extenderse y desarrollarse, pero a condición de contar con asistentes altamente especializados. Para que puedan responder a un gran panel de preguntas, no hay otro funcionamiento que la nube. Una de las soluciones sería tener no un asistente para varias tareas, sino varios asistentes muy especializados. En cualquier caso, este es uno de los desarrollos imaginados por Luc Julia”, Ahora imagina eso con asistentes en todas partes. Entonces uno para el horno, otro para la heladera, otro para las lámparas, la música. Cada uno estaría especializado y ahí creo que tiene sentido. Sería mucho más bajo en términos de tecnología, pero mucho más eficiente para los usuarios. “.
Por lo tanto, quedan muchos desafíos para los asistentes de voz y sus fabricantes. Genere confianza con los usuarios, aumente la transparencia en el uso de datos personales, pero también mejore las interacciones. Para Luc Julia, el mayor progreso sería la conversación, ” Lo mejorable, el Grial, lo que nos gustaría tener, es algo mucho más conversacional. Están muy lejos hoy de ser agentes conversacionales “.



