
Las empresas que desarrollan inteligencia artificial pone en peligro a Wikipedia. La Fundación Wikimedia, la empresa matriz de la popular enciclopedia en línea en un Blog Publicado el martes.
El problema proviene de la popularidad de rápido crecimiento de Wikipedia y el sitio hermano Wikimedia Commons, donde se pueden encontrar imagen, sonido y video. Pero no es en primer lugar haber visitado visiblemente los sitios web de Wikimedia desde el año pasado y, por lo tanto, cargar en gran medida la infraestructura. Son bots.
Los desarrolladores de IA utilizan estos programas informáticos para pastar automáticamente Internet y recopilar tantos datos como sea posible para capacitar a sus modelos de lenguaje grandes (LLM) llamados. Esos modelos de lenguaje forman la base de sistemas como ChatGPT de Open-AI, que puede producir texto en respuesta a preguntas, y más y más imágenes y sonido.
Las enormes colecciones de Wikipedia y Wikimedia Commons reunidos por voluntarios contienen una gran cantidad de información confiable y pueden usarse de forma gratuita para todos. Eso los convierte en una fuente atractiva para sus sistemas para las empresas de IA.
Otra dinámica
El contenido de Wikimedia, escribe los tres autores en su blog, siempre fue una parte importante de los resultados que las personas se mostraron en los motores de búsqueda. “A su vez, llevaron a los usuarios a regresar a nuestros sitios web. Pero con el surgimiento de la inteligencia artificial (IA), la dinámica está cambiando”.
Los sistemas automáticos de las compañías de IA inundan los sitios web de Wikimedia, pero los chatbots a menudo no mencionan dónde obtuvieron su información, e incluso si lo hacen, la Wikimedia produce relativamente pocos visitantes. La gran visita a gran escala de los bots a los sitios web es una gran carga para la infraestructura: el tráfico de los bots ocupa mucho ‘ancho de banda’, por lo que los retrasos ocurren para todos, también para los usuarios humanos.
Nuestro contenido es gratuito, pero nuestra infraestructura no es
“Nuestra infraestructura está construida para poder absorber un aumento repentino de los visitantes humanos en eventos especiales”, dice Wikimedia. “Pero la cantidad de tráfico que obtenemos a través de los bots que raspan Internet no tiene precedentes y implica grandes riesgos y costos”.
Los riesgos porque los técnicos de Wikimedia tienen sus manos llenas de acomodar la gran visita a gran escala de bots, que llegan a satisfacer su hambre de datos. Como resultado, los técnicos tienen menos tiempo para hacer que la visita humana adicional a los sitios web funcione sin problemas en caso de eventos importantes inesperados.
Los costos adicionales surgen a través de la necesidad de utilizar más personal técnico y, además, hacer que más ancho de banda esté disponible. “Reconocemos que todo Internet usa nuestro contenido, pero debe suceder de una manera que pueda sostenerse para nosotros”, dijo Wikimedia. “Nuestro contenido es gratuito, pero nuestra infraestructura no lo es”. La Fundación Wikimedia está casi completamente financiada por donaciones.
Servidor cerca
Wikimedia utiliza centros de datos en todo el mundo para poder servir a sus usuarios rápidamente. Por ejemplo, si un usuario o grupo de usuarios a menudo solicita un artículo sobre Wikipedia, el contenido se almacena en un servidor cercano a esos usuarios, para que pueda entregarse rápidamente. Los artículos que rara vez se solicitan permanecen en un servidor central. Si todavía se solicitan, la solicitud primero debe ‘viajar’ hasta ese centro de datos, y luego el artículo vuelve al usuario, que cuesta más tiempo y dinero.
Los usuarios humanos a menudo solicitan los mismos artículos, por ejemplo, porque los temas están en las noticias. Pero los bots de las compañías de IA están interesados en todo el contenido, incluidas las páginas menos populares, para las cuales a menudo tienen que ser llevadas a los servidores centrales, “lo que lo hace más costoso para nosotros”, dijo Wikimedia. Por ejemplo, los botes de AI se sofocan Wikipedia “, escribe la columnista de tecnología Casey Newton en su boletín Juego de plataformas.
Leer también
La base detrás de la wikipedia idealista tomó una salida comercial
Al igual que para las compañías de noticias, Wikipedia también juega el problema de que las compañías de IA se están desarrollando rápidamente en fuentes competitivas de información. A medida que el uso de chatbots para recopilar información se establece aún más, el hábito de consultar sitios web de noticias y Wikipedia se está volviendo gradualmente en desuso. “A la larga, el riesgo de que los bots de IA aseguren que una visita a sitios web como Wikipedia ya no sea necesaria”, escribe Newton, “y que Wikipedia ya no puede continuar”. Con el que los bots se secaron la fuente que también beben ellos mismos.

