La start-up de inteligencia artificial Anthropic acusada de un robo de datos «atroz»


Desbloquea el Editor’s Digest gratis

La empresa emergente de inteligencia artificial Anthropic ha sido acusada de extraer datos de sitios web de forma agresiva para entrenar sus sistemas, violando potencialmente los términos de servicio de los editores en el proceso, según los afectados.

Los desarrolladores de IA dependen de la ingesta de grandes cantidades de datos extraídos de una amplia variedad de fuentes para crear grandes modelos de lenguaje, la tecnología detrás de chatbots como ChatGPT de OpenAI y el rival de Anthropic, Claude.

Anthropic fue fundada por un grupo de ex investigadores de OpenAI con la promesa de desarrollar sistemas de IA “responsables”.

Sin embargo, Matt Barrie, director ejecutivo de Freelancer.com, acusó a la compañía con sede en San Francisco de ser “con diferencia el raspador más agresivo” de su portal para freelancers, que tiene millones de visitas diarias.

Otros editores web se han hecho eco de las preocupaciones de Barrie de que Anthropic está invadiendo sus sitios e ignorando sus instrucciones de dejar de recopilar su contenido para entrenar sus modelos.

Según los datos compartidos con el Financial Times, Freelancer.com recibió 3,5 millones de visitas de un «rastreador» web vinculado a Anthropic en el espacio de cuatro horas. Eso hace que Anthropic tenga «probablemente unas cinco veces el volumen del segundo» rastreador de inteligencia artificial, dijo Barrie.

Las visitas de su bot continuaron aumentando incluso después de que Freelancer.com intentara rechazar sus solicitudes de acceso, utilizando protocolos web estándar para guiar a los rastreadores, agregó. Después de eso, Barrie decidió bloquear por completo el tráfico de las direcciones de Internet de Anthropic.

“Tuvimos que bloquearlos porque no obedecen las reglas de Internet”, dijo Barrie. “Esto es un robo de datos atroz”. [which] “Hace que el sitio sea más lento para todos los que operan en él y, en última instancia, afecta nuestros ingresos”.

Anthropic dijo que estaba investigando el caso y que respetaba las solicitudes de los editores y su objetivo era no ser «intrusivo ni disruptivo».

La extracción de datos disponibles públicamente de toda la web suele ser legal, pero la práctica es polémica, puede infringir los términos de servicio de los sitios web y puede resultar costosa para los proveedores de alojamiento de los mismos.

Kyle Wiens, director ejecutivo de iFixit.com, dijo que su sitio de reparaciones electrónicas recibió un millón de visitas de bots antrópicos en el espacio de 24 horas. “Tenemos un montón de alarmas [for high traffic]“La gente se despierta a las 3 de la mañana y eso hace sonar todas las alarmas que tenemos”, dijo.

Según Wiens, las condiciones de servicio de iFixit prohibían el uso de sus datos para el aprendizaje automático. “Mi primer mensaje a Anthropic es: si están usando esto para entrenar su modelo, eso es ilegal. El segundo es: esto no es un comportamiento educado en Internet. El rastreo es una cuestión de etiqueta”.

Los sitios web utilizan un protocolo conocido como «robots.txt» para intentar mantener a los rastreadores y otros robots web fuera de ciertas partes de sus sitios. Sin embargo, depende del cumplimiento voluntario.

“Respetamos el archivo robots.txt y nuestro rastreador respetó esa señal cuando iFixit lo implementó”, afirmó Anthropic. La empresa también afirmó que sus rastreadores respetaban las “tecnologías antielusión” como los CAPTCHA, y que “nuestro rastreo no debería ser intrusivo ni disruptivo. Nuestro objetivo es causar la mínima interrupción siendo cuidadosos con la velocidad con la que rastreamos los mismos dominios”.

La extracción de datos no es una práctica nueva, pero ha aumentado drásticamente en los últimos dos años como resultado de la carrera armamentista de la inteligencia artificial, lo que ha impuesto nuevos costos a los sitios web.

“Los rastreadores de IA nos han costado una cantidad significativa de dinero en cargos por ancho de banda y nos han hecho dedicar una gran cantidad de tiempo a lidiar con el abuso”, escribió Eric Holscher, cofundador del sitio web de alojamiento de documentos Read the Docs en un entrada en el blog el jueves. “Los rastreadores de IA están actuando de una manera que no es respetuosa con los sitios que rastrean, y eso provocará una reacción negativa contra los rastreadores de IA en general”, agregó.

Anthropic ha creado algunos de los chatbots más avanzados del mundo (que rivalizan con ChatGPT de OpenAI) que pueden responder a una variedad de indicaciones en lenguaje natural, al tiempo que se posicionan como un actor más ético que algunos rivales. El propósito declarado de Anthropic es «el desarrollo y mantenimiento responsable de la IA avanzada para el beneficio a largo plazo de la humanidad».

A medida que las principales empresas de IA compiten para crear modelos cada vez más capaces y hábiles, se adentran cada vez más en rincones inexplorados de la web, asociándose con editores o creando datos de entrenamiento sintéticos.

En los últimos meses, OpenAI ha cerrado varios acuerdos con editores y proveedores de contenido, entre ellos Reddit, The Atlantic y The Financial Times. Anthropic no ha anunciado públicamente alianzas similares.

“Los motores de búsqueda siempre han realizado un gran trabajo de scraping”, dijo Barrie, “pero han subido un nivel con el entrenamiento de la IA generativa”.

La misión de iFixit “es dar información”, dijo Wiens, para alentar a la gente a reparar sus propios dispositivos. “No nos oponemos a que utilicen nuestro contenido para entrenar modelos, solo queremos ser parte de la conversación”.

Agregó: “No soy un cruzado en este tema, solo estoy tratando de mantener un sitio web en línea”.



ttn-es-56