Con su hambre de datos, las compañías de IA están poniendo en Wikipedia

Las empresas que desarrollan inteligencia artificial pone en peligro a Wikipedia. La Fundación Wikimedia, la empresa matriz de la popular enciclopedia en línea en un Blog Publicado el martes.

El problema proviene de la popularidad de rápido crecimiento de Wikipedia y el sitio hermano Wikimedia Commons, donde se pueden encontrar imagen, sonido y video. Pero no es en primer lugar haber visitado visiblemente los sitios web de Wikimedia desde el año pasado y, por lo tanto, cargar en gran medida la infraestructura. Son bots.

Los desarrolladores de IA utilizan estos programas informáticos para pastar automáticamente Internet y recopilar tantos datos como sea posible para capacitar a sus modelos de lenguaje grandes (LLM) llamados. Esos modelos de lenguaje forman la base de sistemas como ChatGPT de Open-AI, que puede producir texto en respuesta a preguntas, y más y más imágenes y sonido.

Las enormes colecciones de Wikipedia y Wikimedia Commons reunidos por voluntarios contienen una gran cantidad de información confiable y pueden usarse de forma gratuita para todos. Eso los convierte en una fuente atractiva para sus sistemas para las empresas de IA.

Otra dinámica

El contenido de Wikimedia, escribe los tres autores en su blog, siempre fue una parte importante de los resultados que las personas se mostraron en los motores de búsqueda. “A su vez, llevaron a los usuarios a regresar a nuestros sitios web. Pero con el surgimiento de la inteligencia artificial (IA), la dinámica está cambiando”.

Los sistemas automáticos de las compañías de IA inundan los sitios web de Wikimedia, pero los chatbots a menudo no mencionan dónde obtuvieron su información, e incluso si lo hacen, la Wikimedia produce relativamente pocos visitantes. La gran visita a gran escala de los bots a los sitios web es una gran carga para la infraestructura: el tráfico de los bots ocupa mucho ‘ancho de banda’, por lo que los retrasos ocurren para todos, también para los usuarios humanos.

Nuestro contenido es gratuito, pero nuestra infraestructura no es
Wikimedia

“Nuestra infraestructura está construida para poder absorber un aumento repentino de los visitantes humanos en eventos especiales”, dice Wikimedia. “Pero la cantidad de tráfico que obtenemos a través de los bots que raspan Internet no tiene precedentes y implica grandes riesgos y costos”.

Los riesgos porque los técnicos de Wikimedia tienen sus manos llenas de acomodar la gran visita a gran escala de bots, que llegan a satisfacer su hambre de datos. Como resultado, los técnicos tienen menos tiempo para hacer que la visita humana adicional a los sitios web funcione sin problemas en caso de eventos importantes inesperados.

Los costos adicionales surgen a través de la necesidad de utilizar más personal técnico y, además, hacer que más ancho de banda esté disponible. “Reconocemos que todo Internet usa nuestro contenido, pero debe suceder de una manera que pueda sostenerse para nosotros”, dijo Wikimedia. “Nuestro contenido es gratuito, pero nuestra infraestructura no lo es”. La Fundación Wikimedia está casi completamente financiada por donaciones.

Servidor cerca

Wikimedia utiliza centros de datos en todo el mundo para poder servir a sus usuarios rápidamente. Por ejemplo, si un usuario o grupo de usuarios a menudo solicita un artículo sobre Wikipedia, el contenido se almacena en un servidor cercano a esos usuarios, para que pueda entregarse rápidamente. Los artículos que rara vez se solicitan permanecen en un servidor central. Si todavía se solicitan, la solicitud primero debe ‘viajar’ hasta ese centro de datos, y luego el artículo vuelve al usuario, que cuesta más tiempo y dinero.

Los usuarios humanos a menudo solicitan los mismos artículos, por ejemplo, porque los temas están en las noticias. Pero los bots de las compañías de IA están interesados en todo el contenido, incluidas las páginas menos populares, para las cuales a menudo tienen que ser llevadas a los servidores centrales, “lo que lo hace más costoso para nosotros”, dijo Wikimedia. Por ejemplo, los botes de AI se sofocan Wikipedia “, escribe la columnista de tecnología Casey Newton en su boletín Juego de plataformas.

Leer también

La base detrás de la wikipedia idealista tomó una salida comercial

Al igual que para las compañías de noticias, Wikipedia también juega el problema de que las compañías de IA se están desarrollando rápidamente en fuentes competitivas de información. A medida que el uso de chatbots para recopilar información se establece aún más, el hábito de consultar sitios web de noticias y Wikipedia se está volviendo gradualmente en desuso. “A la larga, el riesgo de que los bots de IA aseguren que una visita a sitios web como Wikipedia ya no sea necesaria”, escribe Newton, “y que Wikipedia ya no puede continuar”. Con el que los bots se secaron la fuente que también beben ellos mismos.

ttn-es-33

teknomers

Administrator

Visit Website View All Posts

Related Stories

América, Israel nunca cumplieron compromisos de manera honesta: Esmail Baghaei de Irán – Teknomers

Mundial: perros y policías, la impresionante revisión de los uruguayos antes del partido contra Arabia Saudita

Araqchi de Irán afirma que las conversaciones con EE. UU. para finalizar el acuerdo comenzarán el viernes

You May Have Missed

Campeonato Sub-19 de la UEFA: Chris Gunter nombra la selección de Gales y lanza un reto para Euro 2028

En Seine-Maritime, la Maison Embrin realza el lino con un savoir-faire único.

Eran desechadas o « almacenadas en el sótano »: en Essonne, una start-up ofrece una segunda vida… a las attelles

Copa del Mundo: el fabuloso destino de Roberto « Pico » Lopes, un irlandés reclutado por Cabo Verde en… Teknomers

Otra dinámica

Servidor cerca

About the Author

Related Stories

You May Have Missed