Manténgase informado con actualizaciones gratuitas
Simplemente regístrese en el Inteligencia artificial myFT Digest – entregado directamente en su bandeja de entrada.
En primer lugar, aprendemos que los modelos de IA generativos pueden “alucinar”, una forma elegante de decir que los grandes modelos de lenguaje inventan cosas. Como me informó el propio ChatGPT (en este caso de manera fiable), los LLM pueden generar eventos históricos falsos, personas inexistentes, teorías científicas falsas y libros y artículos imaginarios. Ahora, los investigadores nos dicen que algunos LLM podrían colapsar bajo el peso de sus propias imperfecciones. ¿Es esta realmente la tecnología maravillosa de nuestra era en la que se han gastado cientos de miles de millones de dólares?
en un artículo publicado en Nature La semana pasada, un equipo de investigadores exploró los peligros de la “contaminación de datos” en el entrenamiento de sistemas de IA y los riesgos de colapso del modelo. Habiendo ya ingerido la mayoría de los billones de palabras generadas por humanos en Internet, los últimos modelos de IA generativos dependen cada vez más de datos sintéticos creados por los propios modelos de IA. Sin embargo, estos datos generados por bots pueden comprometer la integridad de los conjuntos de entrenamiento debido a la pérdida de varianza y la replicación de errores. “Encontramos que el uso indiscriminado de contenido generado por modelos en el entrenamiento causa defectos irreversibles en los modelos resultantes”, concluyeron los autores.
Al igual que la mítica serpiente antigua Ouroboros, al parecer, estos modelos se están comiendo su propia cola.
Ilia Shumailov, autor principal del artículo mientras era investigador en la Universidad de Oxford, me dice que la principal conclusión de la investigación es que es probable que el ritmo de desarrollo de la IA generativa se desacelere a medida que los datos de alta calidad se vuelvan más escasos. “La premisa principal del artículo es que los sistemas que estamos construyendo actualmente se degradarán”, afirma.
La empresa de investigación Epoch AI estima que actualmente hay 300 billones de tokens (pequeñas unidades de datos) de texto público generado por humanos lo suficientemente buenos como para ser utilizados con fines de entrenamiento. Según sus previsiones, ese stock de datos podría agotarse en 2028. Entonces, no habrá suficientes datos generados por humanos de alta calidad para alimentar el sistema y una dependencia excesiva de los datos sintéticos puede volverse problemática, como sugiere el artículo de Nature.
Eso no significa que los modelos actuales, entrenados principalmente con datos generados por humanos, se vuelvan inútiles. A pesar de sus hábitos alucinógenos, todavía se pueden aplicar a una infinidad de usos. De hecho, los investigadores dicen que puede haber una ventaja para los primeros modelos de aprendizaje automático entrenados con datos no contaminados que ahora no están disponibles para los modelos de próxima generación. La lógica sugiere que esto también aumentará el valor de los datos nuevos, privados y generados por humanos: los editores deben tomar nota.
Los peligros teóricos del colapso de los modelos se han debatido durante años y los investigadores siguen argumentando que el uso selectivo de datos sintéticos puede resultar inestimable. Aun así, está claro que los investigadores de IA tendrán que dedicar mucho más tiempo y dinero a depurar sus datos. Una empresa que está explorando las mejores formas de hacerlo es Hugging Face, la plataforma de aprendizaje automático colaborativo que utiliza la comunidad de investigación.
Hugging Face ha estado creando conjuntos de entrenamiento altamente seleccionados que incluyen datos sintéticos. También se ha centrado en pequeños modelos de lenguaje en dominios específicos, como la medicina y la ciencia, que son más fáciles de controlar. “La mayoría de los investigadores desprecian la limpieza de los datos. Pero hay que comer verduras. En algún momento, todo el mundo tiene que dedicar su tiempo a ello”, dice Anton Lozhkov, ingeniero de aprendizaje automático de Hugging Face.
Aunque las limitaciones de los modelos de IA generativa son cada vez más evidentes, es poco probable que hagan descarrilar la revolución de la IA. De hecho, es posible que ahora se preste renovada atención a campos de investigación de IA adyacentes, que han sido relativamente desatendidos últimamente pero que pueden conducir a nuevos avances. Algunos investigadores de IA generativa están particularmente intrigados por el progreso logrado en la IA corporizada, como en los robots y los vehículos autónomos.
Cuando entrevisté a la científica cognitiva Alison Gopnik a principios de este año, ella sugirió que eran los expertos en robótica quienes realmente estaban construyendo la IA fundamental: sus sistemas no estaban cautivos en Internet, sino que se aventuraban en el mundo real, extrayendo información de sus interacciones y adaptando sus respuestas como resultado.
“Esa es la ruta que deberías seguir si realmente quisieras diseñar algo que fuera genuinamente inteligente”, sugirió.
Después de todo, como señaló Gopnik, así fue exactamente como surgió originalmente la inteligencia biológica del pantano primigenio. Nuestros últimos modelos de IA generativa pueden cautivarnos con sus capacidades, pero aún tienen mucho que aprender de ellos. La evolución de los gusanos y esponjas más primitivos Hace más de 500 millones de años.