Por qué se utilizan datos creados por computadora para entrenar modelos de IA


Las empresas de inteligencia artificial están explorando una nueva vía para obtener las cantidades masivas de datos necesarios para desarrollar poderosos modelos generativos: crear la información desde cero.

Microsoft, OpenAI y Cohere se encuentran entre los grupos que prueban el uso de los llamados “datos sintéticos”, información generada por computadora para entrenar sus sistemas de IA conocidos como modelos de lenguaje extenso (LLM), a medida que alcanzan los límites de los datos creados por humanos que puede mejorar aún más la tecnología de punta.

El lanzamiento de ChatGPT de OpenAI respaldado por Microsoft en noviembre pasado generó una avalancha de productos lanzados públicamente este año por compañías como Google y Anthropic, que pueden producir texto, imágenes o código plausibles en respuesta a indicaciones simples.

La tecnología, conocida como IA generativa, ha generado un aumento del interés de los inversores y los consumidores, con las empresas de tecnología más grandes del mundo, incluidas Google, Microsoft y Meta, compitiendo para dominar el espacio.

Actualmente, los LLM que impulsan chatbots como ChatGPT de OpenAI y Bard de Google se capacitan principalmente extrayendo Internet. Los datos utilizados para entrenar estos sistemas incluyen libros digitalizados, artículos de noticias, blogs, consultas de búsqueda, publicaciones de Twitter y Reddit, videos de YouTube e imágenes de Flickr, entre otros contenidos.

Luego, se utilizan humanos para proporcionar retroalimentación y llenar los vacíos en la información en un proceso conocido como aprendizaje reforzado por retroalimentación humana (RLHF).

Pero a medida que el software de IA generativa se vuelve más sofisticado, incluso las empresas de IA con mucho dinero se están quedando sin datos fácilmente accesibles y de alta calidad para capacitarse. Mientras tanto, están bajo el fuego de los reguladores, artistas y organizaciones de medios de todo el mundo por el volumen y la procedencia de los datos personales consumidos por la tecnología.

En un evento en Londres en mayo, se le preguntó al director ejecutivo de OpenAI, Sam Altman, si estaba preocupado por las investigaciones regulatorias sobre las posibles violaciones de privacidad de ChatGPT. Altman lo restó importancia y dijo que estaba “bastante seguro de que pronto todos los datos serán datos sintéticos”.

Los datos genéricos de la web ya no son lo suficientemente buenos para impulsar el rendimiento de los modelos de IA, según los desarrolladores.

“Si pudiera obtener todos los datos que necesita de la web, eso sería fantástico”, dijo Aidan Gomez, director ejecutivo de Cohere, la empresa emergente LLM de $ 2 mil millones. “En realidad, la web es tan ruidosa y desordenada que no es realmente representativa de los datos que desea. La web simplemente no hace todo lo que necesitamos”.

Actualmente, los modelos más vanguardistas, como el GPT-4 de OpenAI, se acercan al rendimiento del nivel humano en áreas como la escritura y la codificación, y pueden aprobar puntos de referencia como el examen de la barra de EE. UU.

Para mejorar drásticamente su rendimiento y poder abordar los desafíos en ciencia, medicina o negocios, los modelos de IA requerirán conjuntos de datos únicos y sofisticados. Estos tendrán que ser creados por expertos mundiales como científicos, médicos, autores, actores o ingenieros, o adquiridos como datos de propiedad de grandes corporaciones como farmacéuticas, bancos y minoristas. Sin embargo, “datos creados por humanos. . . es extremadamente caro”, dijo Gómez.

La nueva tendencia de utilizar datos sintéticos elude este costoso requisito. En cambio, las empresas pueden usar modelos de IA para producir texto, código o información más compleja relacionada con la atención médica o el fraude financiero. Estos datos sintéticos se utilizan luego para capacitar a los LLM avanzados para que sean cada vez más capaces.

Según Gomez, Cohere, así como varios de sus competidores, ya utilizan datos sintéticos que luego son ajustados y modificados por humanos. “[Synthetic data] ya es enorme. . . incluso si no se difunde ampliamente”, dijo.

Por ejemplo, para entrenar a un modelo en matemáticas avanzadas, Cohere podría usar dos modelos de IA que hablan entre sí, donde uno actúa como tutor de matemáticas y el otro como estudiante.

“Están teniendo una conversación sobre trigonometría. . . y es todo sintético”, dijo Gómez. “Todo es simplemente imaginado por el modelo. Y luego el humano mira esta conversación y entra y la corrige si el modelo dijo algo mal. Ese es el statu quo hoy”.

Dos estudios recientes de Microsoft Research mostraron que los datos sintéticos podrían usarse para entrenar modelos más pequeños y simples que el software de última generación como GPT-4 de OpenAI o PaLM-2 de Google.

Un artículo describía un conjunto de datos sintéticos de historias cortas generadas por GPT-4, que solo contenían palabras que un niño típico de cuatro años podría entender. Este conjunto de datos, conocido como Historias diminutas, luego se usó para entrenar a un LLM simple que pudo producir historias fluidas y gramaticalmente correctas. El otro papel demostraron que la IA podría entrenarse en código Python sintético en forma de libros de texto y ejercicios, que descubrieron que funcionaba relativamente bien en tareas de codificación.

Han surgido nuevas empresas como Scale AI y Gretel.ai para proporcionar datos sintéticos como servicio. Gretel, creada por exanalistas de inteligencia de EE. UU. de la Agencia de Seguridad Nacional y la CIA, trabaja con empresas como Google, HSBC, Riot Games e Illumina para aumentar sus datos existentes con versiones sintéticas que pueden ayudar a entrenar mejores modelos de IA.

El componente clave de los datos sintéticos, según el director ejecutivo de Gretel, Ali Golshan, es que preserva la privacidad de todas las personas en un conjunto de datos, al mismo tiempo que mantiene su integridad estadística.

Los datos sintéticos bien elaborados también pueden eliminar sesgos y desequilibrios en los datos existentes, agregó. “Los fondos de cobertura pueden mirar los eventos del cisne negro y, digamos, crear cientos de variaciones para ver si nuestros modelos fallan”, dijo Golshan. Para los bancos, donde el fraude normalmente constituye menos de una centésima parte del porcentaje de los datos totales, el software de Gretel puede generar “miles de escenarios de casos extremos sobre fraude y entrenar [AI] modelos con él.”

Los críticos señalan que no todos los datos sintéticos se seleccionarán cuidadosamente para reflejar o mejorar los datos del mundo real. A medida que el texto y las imágenes generados por IA comienzan a llenar Internet, es probable que las empresas de IA que rastrean la web en busca de datos de entrenamiento terminen inevitablemente usando datos sin procesar producidos por versiones primitivas de sus propios modelos, un fenómeno conocido como “comida de perros”. .

Investigación de universidades como Oxford y Cambridge, advirtieron recientemente que entrenar modelos de IA en sus propios resultados sin procesar, que pueden contener falsedades o fabricaciones, podría corromper y degradar la tecnología con el tiempo, causando “defectos irreversibles”.

Golshan está de acuerdo en que la capacitación en datos sintéticos deficientes podría impedir el progreso. “El contenido en la web es cada vez más generado por IA, y creo que eso conducirá a la degradación con el tiempo. [because] Los LLM están produciendo conocimiento regurgitado, sin nuevos conocimientos”, dijo.

A pesar de estos riesgos, los investigadores de IA como Gomez de Cohere dicen que los datos sintéticos tienen el potencial de acelerar el camino hacia los sistemas de IA superinteligentes.

“Lo que realmente quieres es que los modelos puedan aprender por sí mismos. Quiere que sean capaces de. . . hacer sus propias preguntas, descubrir nuevas verdades y crear su propio conocimiento”, dijo. “Ese es el sueño”.



ttn-es-56