La IA se ve afectada por demandas de derechos de autor mientras las empresas se acercan a la "frontera de datos"

Manténgase informado con actualizaciones gratuitas

Las principales empresas de inteligencia artificial se enfrentan a una ola de litigios por derechos de autor y acusaciones de que están extrayendo datos de la web de forma agresiva, un problema que se agrava a medida que las empresas emergentes se topan con una “frontera de datos” que obstaculiza nuevos avances en la tecnología.

Este mes, un trío de autores demandó a Anthropic por “robar cientos de miles de libros con derechos de autor”, alegando que la empresa emergente de inteligencia artificial de San Francisco “nunca buscó —y mucho menos pagó— una licencia para copiar y explotar la expresión protegida contenida en las obras con derechos de autor que se utilizaron en sus modelos”.

La demanda colectiva se suma a una larga lista de casos de derechos de autor en curso, el más destacado de los cuales fue presentado por el New York Times contra OpenAI y Microsoft a fines del año pasado. El Times afirma que las empresas tienen “fines de lucro”.[ing] “de la violación masiva de derechos de autor, la explotación comercial y la apropiación indebida de la propiedad intelectual de The Times”.

Si el caso tiene éxito, los argumentos del editor podrían extenderse a otras empresas que entrenan modelos de IA en Internet, con el potencial de generar más litigios.

Las empresas de IA han avanzado significativamente en los últimos 18 meses, pero han comenzado a toparse con lo que los expertos describen como una frontera de datos, lo que las obliga a explorar rincones cada vez más profundos de la web, llegar a acuerdos para acceder a conjuntos de datos privados o confiar en datos sintéticos.

“Ya no hay almuerzo gratis. Ya no se puede extraer un conjunto de datos a escala web. Hay que comprarlo o producirlo. Esa es la frontera en la que nos encontramos ahora”, dijo Alex Ratner, cofundador de Snorkel AI, que crea y etiqueta conjuntos de datos para empresas.

Anthropic, una startup de inteligencia artificial que se autodefine como “responsable”, también ha sido acusada por los propietarios de sitios web de “extraer datos web de forma atroz” para entrenar a sus sistemas en el último mes. Perplexity, un motor de búsqueda basado en inteligencia artificial que pretende enfrentarse al monopolio de Google en las consultas web, ha enfrentado acusaciones similares.

El propio Google ha causado consternación entre los editores, que han luchado para impedir que la empresa rastree sus sitios para su herramienta de inteligencia artificial sin también excluirse de los resultados de búsqueda.

Las empresas emergentes de inteligencia artificial están inmersas en una feroz carrera por el dominio en la que requieren montañas de datos de entrenamiento, junto con algoritmos cada vez más sofisticados y semiconductores más potentes para ayudar a sus chatbots a generar respuestas creativas y similares a las humanas.

Solo OpenAI, la empresa matriz de ChatGPT, y Anthropic han recaudado más de 20 000 millones de dólares para construir potentes modelos de IA generativa, que pueden responder a indicaciones en lenguaje natural y mantener su ventaja sobre los nuevos participantes, incluido xAI de Elon Musk.

Pero la competencia entre empresas de IA también las ha puesto en la mira de los editores y propietarios del material necesario para desarrollar modelos.

El caso del Times pretende demostrar que OpenAI ha canibalizado efectivamente su contenido y lo está reproduciendo de maneras que “sustituyen al Times y le roban audiencia”. Una resolución del caso proporcionaría mayor claridad a los editores sobre el valor de su contenido.

Mientras tanto, las empresas emergentes de inteligencia artificial están cerrando acuerdos con editoriales para garantizar que sus chatbots produzcan respuestas precisas y actualizadas. OpenAI, que recientemente anunció su propio producto de búsqueda, llegó a un acuerdo con Condé Nast, editor de las revistas New Yorker y Vogue, que se suma a los acuerdos con otras editoriales, como The Atlantic, Time y The Financial Times. Perplexity también ha firmado acuerdos de reparto de ingresos con varias editoriales.

Anthropic aún no ha anunciado asociaciones similares, pero en febrero la start-up contrató a Tom Turvey, un veterano de 20 años de Google que había trabajado en la estrategia de asociación del gigante de las búsquedas con importantes editores.

Google ha hecho más que cualquier otra empresa para sentar un precedente sobre cómo funciona hoy la relación entre editoriales y empresas tecnológicas. En 2015, la empresa ganó su caso contra un grupo de autores que afirmaban que el escaneo e indexación de sus obras violaba el uso legítimo. La victoria se basó en el argumento de que el uso que Google hacía del contenido era “altamente transformador”.

El caso del Times contra OpenAI se basa en la afirmación de que “no hay nada ‘transformador’” en la forma en que la empresa tecnológica había utilizado el contenido del grupo de periódicos. Un veredicto proporcionaría un nuevo precedente a los editores. Sin embargo, el caso de Google tardó una década en concluir, tiempo durante el cual el motor de búsqueda había establecido una posición dominante.

ttn-es-56