Popular desde su lanzamiento a fines de 2022, la inteligencia artificial (AI) ChatGPT impresiona a sus usuarios por su velocidad y la humanización de sus respuestas. Como cualquier programa informático, el chatbot no puede…
Popular desde su lanzamiento a fines de 2022, la inteligencia artificial (AI) ChatGPT impresiona a sus usuarios por su velocidad y la humanización de sus respuestas. Como cualquier programa informático, el chatbot no puede pensar como un ser humano y no entiende lo que escribe. Para imitar la conversación y el habla de una persona tanto como sea posible, se entrena con cantidades gigantescas de datos de sitios web.
EL El Correo de Washington analizó un conjunto de datos denominado Colossal Clean Crawled Corpus, conocido popularmente como C4, de Google. Contiene más de 15 millones de sitios web y entrenó a la IA de Alphabet llamada T5 y LLaMA, un gran modelo de metalenguaje presentado en febrero de 2023. Para estudiar todos los sitios web y clasificarlos, el diario estadounidense trabajó en colaboración con el Instituto Allen para IA, un organismo especializado instituto en Seattle, y SimilarWeb, una empresa de análisis de datos.
IA y patentes
El conjunto de datos estudiado está dominado por los medios, el entretenimiento, el desarrollo de software, la medicina y la creación de contenido. Los tres sitios más utilizados para la formación son en primer lugar Patents.google.com, un sitio que agrupa los textos de las patentes concedidas en todo el mundo. En un libro blanco que describe su metodología para entrenar su AI BERT, Google explica que las patentes son muy importantes por su extensión (alrededor de 10,000 palabras) y complejidades. Suelen estar escritos por inventores y abogados. El segundo sitio es Wikipedia. La enciclopedia online permite a la IA ingerir una gran cantidad de datos históricos, legales, científicos… La última es Scribd, una biblioteca digital a la que solo se puede acceder mediante suscripción.
Un entrenamiento desafiado
EL El Correo de Washington clasificó, con la ayuda de Similarweb, los 15 millones de sitios en 11 categorías. El más grande es Enterprise & Industry, que comprende el 16% del total. El primero de este grupo en tener IA capacitadas es Fool.com, un sitio de asesoramiento de inversiones. Ocupa el puesto 13 de todos los sitios web. El sitio de financiación colectiva del proyecto Kickstarter ocupa el puesto 25. Tenga en cuenta que Patreon.com, un sitio de donaciones para creadores, ocupa el puesto 2398. El problema es que estos dos sitios podrían haber permitido a AI acceder al contenido de los artistas sin su consentimiento y crear obras similares sin compensación financiera. Se han presentado denuncias sobre este tema en Estados Unidos contra Stability AI, MidJourney o incluso DeviantArt.
Las noticias y los medios representan el 10% de todos los sitios web. El periódico estadounidense enumera los New York Times, Tiempos de Los Ángeles, El guardián, Forbes, HuffPost o incluso a sí mismo en la base de datos. Al igual que los artistas, muchos periodistas y editores critican el uso de sus historias sin consentimiento ni compensación.
filtrado aproximado
El C4 de Google se filtra para eliminar duplicados, páginas móviles innecesarias y contenido malicioso. Pero en la categoría de Noticias y Medios, el uso de sitios como RT, un medio afiliado al gobierno ruso, Breibart, un sitio de extrema derecha, o incluso Vdare, un blog anti-inmigración y supremacista plantea interrogantes. Las IA podrían verse inducidas a hacer comentarios discriminatorios contra ciertos grupos étnicos.
EL El Correo de Washington liza otros sitios que no han sido filtrados, incluidos cientos de sitios pornográficos y más de 72,000 contenidos que evocan la esvástica, la esvástica.
Otra categoría principal es Comunidad con el 5% de los sitios. Incluye en particular contenido religioso. De los 20 sitios principales, 14 son cristianos versus 2 judíos, 1 musulmán, 1 mormón, 1 testigo de Jehová y 1 que celebra todas las religiones. Esta distribución inequitativa puede influir en la IA en sus palabras. Por ejemplo, en 2021, el GPT-3 de OpenAI, cuando se le pidió que completara la frase “Dos musulmanes entraron en un…” respondió con la descripción de acciones violentas en el 66 % de los casos.
Este análisis de los datos de entrenamiento de IA demuestra que todavía queda mucho trabajo por hacer para filtrar los sitios web utilizados. Los grandes modelos lingüísticos entrenan con contenidos aún más impactantes según los expertos que testifican al diario estadounidense. Se dice que GPT-3 agrega 40 veces más datos que C4. Sobre el tema del uso de contenido con derechos de autor, además de las denuncias presentadas por los artistas, los actores comienzan a reaccionar. Reddit está considerando cobrar por el uso de su contenido. Meta y Twitter impiden la recuperación en sus redes sociales. Las CNIL europeas y americanas también podrían pedir más transparencia.