
Ha comenzado la carrera para llevar la tecnología detrás de ChatGPT al teléfono inteligente que lleva en el bolsillo. Y a juzgar por la sorprendente velocidad a la que avanza la tecnología, los últimos avances en inteligencia artificial podrían transformar las comunicaciones móviles y la informática mucho más rápido de lo que parecía probable hace solo unos meses.
A medida que las empresas de tecnología se apresuran a incorporar IA generativa en su software y servicios, enfrentan costos informáticos significativamente más altos. La preocupación ha pesado en particular en Google, con los analistas de Wall Street advirtiendo que los márgenes de ganancia de la compañía podrían reducirse si los usuarios de búsqueda en Internet esperan contenido generado por IA en los resultados de búsqueda estándar.
Ejecutar IA generativa en teléfonos móviles, en lugar de a través de la nube en servidores operados por grandes grupos tecnológicos, podría responder una de las preguntas económicas más importantes planteadas por la última moda tecnológica.
Google dijo la semana pasada que había logrado ejecutar una versión de PaLM 2, su último modelo de lenguaje grande, en un teléfono Samsung Galaxy. Aunque no demostró públicamente el modelo reducido, llamado Gecko, el movimiento es la última señal de que una forma de IA que ha requerido recursos informáticos que solo se encuentran en un centro de datos está comenzando a llegar rápidamente a muchos más lugares.
El cambio podría hacer que los servicios como los chatbots sean mucho más baratos para las empresas y allanar el camino para aplicaciones más transformadoras que utilicen IA generativa.
“Necesitas hacer que la IA sea híbrida: [running in both] el centro de datos y localmente; de lo contrario, costará demasiado dinero”, dijo al Financial Times Cristiano Amon, director ejecutivo de la empresa de chips móviles Qualcomm. Aprovechar la potencia de procesamiento no utilizada en los teléfonos móviles fue la mejor manera de distribuir el costo, dijo.
Cuando el lanzamiento de ChatGPT a fines del año pasado atrajo la atención generalizada de la IA generativa, la perspectiva de llevarla a los teléfonos parecía distante. Además de entrenar los llamados modelos de lenguaje grande detrás de dichos servicios, el trabajo de inferencia, o ejecutar los modelos para producir resultados, también es computacionalmente exigente. Los teléfonos carecen de la memoria para contener modelos grandes como el que está detrás de ChatGPT, así como de la potencia de procesamiento necesaria para ejecutarlos.
Generar una respuesta a una consulta en un dispositivo, en lugar de esperar a que un centro de datos remoto produzca un resultado, también podría reducir la latencia o el retraso del uso de una aplicación. Cuando los datos personales de un usuario se utilizan para refinar las respuestas generativas, mantener todo el procesamiento en un teléfono también podría mejorar la privacidad.
Más que nada, la IA generativa podría facilitar la realización de actividades comunes en un teléfono inteligente, por ejemplo, cuando se trata de cosas que involucran la producción de texto. “Podrías incrustar [the AI] en cada aplicación de oficina: recibe un correo electrónico, sugiere una respuesta”, dijo Amon. “Va a necesitar la capacidad de ejecutar esas cosas localmente, así como en el centro de datos”.
Los rápidos avances en algunos de los modelos subyacentes han cambiado la ecuación. Los más grandes y avanzados, como PaLM 2 de Google y GPT-4 de OpenAI, han acaparado los titulares. Pero una explosión de modelos más pequeños ha hecho que algunas de las mismas capacidades estén disponibles en formas menos exigentes desde el punto de vista técnico. Estos se han beneficiado en parte de las nuevas técnicas para ajustar los modelos de lenguaje basados en una selección más cuidadosa de los conjuntos de datos en los que se entrenan, lo que reduce la cantidad de información que necesitan almacenar.
Según Arvind Krishna, director ejecutivo de IBM, la mayoría de las empresas que buscan utilizar IA generativa en sus propios servicios obtendrán gran parte de lo que necesitan al combinar varios de estos modelos más pequeños. Hablando la semana pasada cuando IBM anunció una plataforma tecnológica para ayudar a sus clientes a aprovechar la IA generativa, dijo que muchos optarían por usar modelos de código abierto, donde el código era más transparente y podría adaptarse, en parte porque sería más fácil de afinar la tecnología utilizando sus propios datos.
Algunos de los modelos más pequeños ya han demostrado capacidades sorprendentes. Incluyen LLaMa, un modelo de lenguaje de código abierto lanzado por Meta, que se afirma que coincide con muchas de las características de los sistemas más grandes.
LLaMa viene en varios tamaños, el más pequeño de los cuales tiene solo 7 mil millones de parámetros, mucho menos que los 175 mil millones de GPT-3, el innovador modelo de lenguaje que OpenAI lanzó en 2020; el número de parámetros en GPT-4, lanzado este año, no ha sido revelado. Un modelo de investigación basado en LLaMa y desarrollado en la Universidad de Stanford ya se ha mostrado funcionando en uno de los teléfonos Pixel 6 de Google.
Además de su tamaño mucho más pequeño, la naturaleza de código abierto de modelos como este también ha facilitado que los investigadores y desarrolladores los adapten a diferentes entornos informáticos. A principios de este año, Qualcomm mostró lo que afirmaba que era el primer teléfono Android que ejecutaba el modelo de generación de imágenes de Stable Diffusion, que tiene alrededor de 1.000 millones de parámetros. El fabricante de chips había “cuantificado” o reducido el tamaño del modelo para ejecutarlo más fácilmente en un teléfono sin perder nada de su precisión, dijo Ziad Asghar, vicepresidente senior de Qualcomm.
Dado que la mayor parte del trabajo sobre la adaptación de los modelos a los teléfonos aún se encuentra en una etapa experimental, era demasiado pronto para evaluar si los esfuerzos conducirían a aplicaciones móviles verdaderamente útiles, dijo Ben Bajarin, analista de Creative Strategies. Predijo aplicaciones relativamente rudimentarias, como funciones de edición de fotos controladas por voz y respuestas simples a preguntas, de la primera ola de modelos móviles con entre 1.000 millones y 10.000 millones de parámetros.
Zoubin Ghahramani, vicepresidente de Google DeepMind, el brazo de investigación de inteligencia artificial de la compañía de Internet, dijo que su modelo móvil Gecko podría procesar 16 tokens por segundo, una medida basada en la cantidad de unidades de texto cortas con las que trabajan los modelos de lenguaje grande. La mayoría de los modelos grandes usan uno o dos tokens por palabra generada, lo que sugiere que Gecko podría producir entre 10 y 15 palabras por segundo en un teléfono, lo que podría hacerlo adecuado para sugerir mensajes de texto o respuestas breves de correo electrónico.
Los requisitos particulares de los teléfonos móviles significaban que era probable que la atención cambiara rápidamente a los llamados modelos multimodales que pueden funcionar con una variedad de imágenes, texto y otras entradas, dijo Asghar de Qualcomm. Es probable que las aplicaciones móviles se basen en gran medida en el habla y las imágenes, agregó, en lugar de las aplicaciones con mucho texto, más comunes en una computadora personal.
La sorprendente velocidad con la que la IA generativa está comenzando a trasladarse a los teléfonos inteligentes aumentará la atención sobre Apple, que hasta ahora se ha mantenido al margen del frenesí especulativo en torno a la tecnología.
Defectos bien conocidos en la IA generativa, como la tendencia de los modelos grandes a “alucinar”, o cuando el chatbot responde con información inventada, significaba que era poco probable que Apple incrustara la tecnología en el sistema operativo del iPhone durante algún tiempo, dijo Creative Strategies. Bajarín. En cambio, predijo que la compañía buscaría formas de facilitar que los desarrolladores de aplicaciones comiencen a experimentar con la tecnología en sus propios servicios.
“Esta es la postura que verás también en Microsoft y Google: todos querrán brindarles a los desarrolladores las herramientas para ir y competir. [with generative AI applications]”, dijo Bajarín.
Con la Conferencia Mundial de Desarrolladores de Apple programada para comenzar el 5 de junio, precedida por el evento de Microsoft para desarrolladores llamado Build, la lucha por la atención de los desarrolladores está a punto de volverse intensa. La IA generativa aún puede estar en su infancia, pero la prisa por llegar a las manos y bolsillos de muchos más usuarios ya se está acelerando.
