Skip to content
Teknomers Noticias

Teknomers Noticias

Deporte-Comida-Finanzas-Revista-Cultura-Entretenimiento-Tecnologia

Primary Menu
  • Blog
  • Política de Privacidad
  • Publicación de artículos promocionales y backlinks
Light/Dark Button
  • Home
  • General
  • ¿Cómo entrenan las IA, como ChatGPT?
  • General

¿Cómo entrenan las IA, como ChatGPT?

teknomers 24 de Nisan de 2023 (Last updated: 24 de Nisan de 2023) 5 minutes read
¿Cómo entrenan las IA, como ChatGPT?


Popular desde su lanzamiento a fines de 2022, la inteligencia artificial (AI) ChatGPT impresiona a sus usuarios por su velocidad y la humanización de sus respuestas. Como cualquier programa informático, el chatbot no puede…

Popular desde su lanzamiento a fines de 2022, la inteligencia artificial (AI) ChatGPT impresiona a sus usuarios por su velocidad y la humanización de sus respuestas. Como cualquier programa informático, el chatbot no puede pensar como un ser humano y no entiende lo que escribe. Para imitar la conversación y el habla de una persona tanto como sea posible, se entrena con cantidades gigantescas de datos de sitios web.

EL El Correo de Washington analizó un conjunto de datos denominado Colossal Clean Crawled Corpus, conocido popularmente como C4, de Google. Contiene más de 15 millones de sitios web y entrenó a la IA de Alphabet llamada T5 y LLaMA, un gran modelo de metalenguaje presentado en febrero de 2023. Para estudiar todos los sitios web y clasificarlos, el diario estadounidense trabajó en colaboración con el Instituto Allen para IA, un organismo especializado instituto en Seattle, y SimilarWeb, una empresa de análisis de datos.

IA y patentes

El conjunto de datos estudiado está dominado por los medios, el entretenimiento, el desarrollo de software, la medicina y la creación de contenido. Los tres sitios más utilizados para la formación son en primer lugar Patents.google.com, un sitio que agrupa los textos de las patentes concedidas en todo el mundo. En un libro blanco que describe su metodología para entrenar su AI BERT, Google explica que las patentes son muy importantes por su extensión (alrededor de 10,000 palabras) y complejidades. Suelen estar escritos por inventores y abogados. El segundo sitio es Wikipedia. La enciclopedia online permite a la IA ingerir una gran cantidad de datos históricos, legales, científicos… La última es Scribd, una biblioteca digital a la que solo se puede acceder mediante suscripción.

Un entrenamiento desafiado

EL El Correo de Washington clasificó, con la ayuda de Similarweb, los 15 millones de sitios en 11 categorías. El más grande es Enterprise & Industry, que comprende el 16% del total. El primero de este grupo en tener IA capacitadas es Fool.com, un sitio de asesoramiento de inversiones. Ocupa el puesto 13 de todos los sitios web. El sitio de financiación colectiva del proyecto Kickstarter ocupa el puesto 25. Tenga en cuenta que Patreon.com, un sitio de donaciones para creadores, ocupa el puesto 2398. El problema es que estos dos sitios podrían haber permitido a AI acceder al contenido de los artistas sin su consentimiento y crear obras similares sin compensación financiera. Se han presentado denuncias sobre este tema en Estados Unidos contra Stability AI, MidJourney o incluso DeviantArt.

Las noticias y los medios representan el 10% de todos los sitios web. El periódico estadounidense enumera los New York Times, Tiempos de Los Ángeles, El guardián, Forbes, HuffPost o incluso a sí mismo en la base de datos. Al igual que los artistas, muchos periodistas y editores critican el uso de sus historias sin consentimiento ni compensación.

filtrado aproximado

El C4 de Google se filtra para eliminar duplicados, páginas móviles innecesarias y contenido malicioso. Pero en la categoría de Noticias y Medios, el uso de sitios como RT, un medio afiliado al gobierno ruso, Breibart, un sitio de extrema derecha, o incluso Vdare, un blog anti-inmigración y supremacista plantea interrogantes. Las IA podrían verse inducidas a hacer comentarios discriminatorios contra ciertos grupos étnicos.

EL El Correo de Washington liza otros sitios que no han sido filtrados, incluidos cientos de sitios pornográficos y más de 72,000 contenidos que evocan la esvástica, la esvástica.

Otra categoría principal es Comunidad con el 5% de los sitios. Incluye en particular contenido religioso. De los 20 sitios principales, 14 son cristianos versus 2 judíos, 1 musulmán, 1 mormón, 1 testigo de Jehová y 1 que celebra todas las religiones. Esta distribución inequitativa puede influir en la IA en sus palabras. Por ejemplo, en 2021, el GPT-3 de OpenAI, cuando se le pidió que completara la frase “Dos musulmanes entraron en un…” respondió con la descripción de acciones violentas en el 66 % de los casos.

Este análisis de los datos de entrenamiento de IA demuestra que todavía queda mucho trabajo por hacer para filtrar los sitios web utilizados. Los grandes modelos lingüísticos entrenan con contenidos aún más impactantes según los expertos que testifican al diario estadounidense. Se dice que GPT-3 agrega 40 veces más datos que C4. Sobre el tema del uso de contenido con derechos de autor, además de las denuncias presentadas por los artistas, los actores comienzan a reaccionar. Reddit está considerando cobrar por el uso de su contenido. Meta y Twitter impiden la recuperación en sus redes sociales. Las CNIL europeas y americanas también podrían pedir más transparencia.



ttn-es-4

About the Author

teknomers

Administrator

Visit Website View All Posts

Post navigation

Previous: Ella sonríe vagamente al horizonte, ¡estirarse es tan agradable!
Next: El dueño del café publicó un anuncio de búsqueda en las redes sociales: el cliente fue así de memorable

Related Stories

  • General

Trump apoya a Collins en la segunda vuelta del Senado de Georgia. Es su última elección ‘MAGA’ en las primarias republicanas.

teknomers 14 de Haziran de 2026
  • General

La represión de China en el Tíbet bajo el foco global mientras el líder tibetano busca apoyo democrático en Berlín

teknomers 14 de Haziran de 2026
  • General

Irak cancela proyecto del aeropuerto de Bagdad de $764 millones por preocupaciones de corrupción

teknomers 14 de Haziran de 2026

You May Have Missed

  • Finanzas

Retiradas: Marine Le Pen favorable a una parte de capitalización “voluntaria” y refuta toda “contradicción” con Jordan Bardella

teknomers 14 de Haziran de 2026
Copa del mundo: chalecos refrigerantes, ventiladores… los equipos sacan la
  • Deporte

Copa del mundo: chalecos refrigerantes, ventiladores… los equipos sacan la artillería pesada contra el calor

teknomers 14 de Haziran de 2026
Este estadio debe ocultar su nombre durante la Copa del
  • Entretenimiento

Este estadio debe ocultar su nombre durante la Copa del Mundo, la marca hace un gran golpe de comunicación.

teknomers 14 de Haziran de 2026
  • AI

La búsqueda de Google ahora te ayuda a comprar de manera más inteligente. Aquí te mostramos cómo puedes utilizarla.

teknomers 14 de Haziran de 2026
  • Blog
  • Política de Privacidad
  • Publicación de artículos promocionales y backlinks
Copyright © 2026 All rights reserved. | ReviewNews by AF themes.