{"id":720781,"date":"2023-04-24T13:21:41","date_gmt":"2023-04-24T13:21:41","guid":{"rendered":"https:\/\/teknomers.com\/es\/como-entrenan-las-ia-como-chatgpt\/"},"modified":"2023-04-24T13:21:44","modified_gmt":"2023-04-24T13:21:44","slug":"como-entrenan-las-ia-como-chatgpt","status":"publish","type":"post","link":"https:\/\/teknomers.com\/es\/como-entrenan-las-ia-como-chatgpt\/","title":{"rendered":"\u00bfC\u00f3mo entrenan las IA, como ChatGPT?"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<p>Popular desde su lanzamiento a fines de 2022, la inteligencia artificial (AI) ChatGPT impresiona a sus usuarios por su velocidad y la humanizaci\u00f3n de sus respuestas.  Como cualquier programa inform\u00e1tico, el chatbot no puede&#8230;<\/p>\n<div id=\"#full-content\" style=\"display:none\">\n<p>Popular desde su lanzamiento a fines de 2022, la inteligencia artificial (AI) ChatGPT impresiona a sus usuarios por su velocidad y la humanizaci\u00f3n de sus respuestas.  Como cualquier programa inform\u00e1tico, el chatbot no puede pensar como un ser humano y no entiende lo que escribe.  Para imitar la conversaci\u00f3n y el habla de una persona tanto como sea posible, se entrena con cantidades gigantescas de datos de sitios web.<\/p>\n<p>EL <em>El Correo de Washington<\/em> analiz\u00f3 un conjunto de datos denominado Colossal Clean Crawled Corpus, conocido popularmente como C4, de Google.  Contiene m\u00e1s de 15 millones de sitios web y entren\u00f3 a la IA de Alphabet llamada T5 y LLaMA, un gran modelo de metalenguaje presentado en febrero de 2023. Para estudiar todos los sitios web y clasificarlos, el diario estadounidense trabaj\u00f3 en colaboraci\u00f3n con el Instituto Allen para IA, un organismo especializado instituto en Seattle, y SimilarWeb, una empresa de an\u00e1lisis de datos.<\/p>\n<h2>IA y patentes<\/h2>\n<p>El conjunto de datos estudiado est\u00e1 dominado por los medios, el entretenimiento, el desarrollo de software, la medicina y la creaci\u00f3n de contenido.  Los tres sitios m\u00e1s utilizados para la formaci\u00f3n son en primer lugar Patents.google.com, un sitio que agrupa los textos de las patentes concedidas en todo el mundo.  En un libro blanco que describe su metodolog\u00eda para entrenar su AI BERT, Google explica que las patentes son muy importantes por su extensi\u00f3n (alrededor de 10,000 palabras) y complejidades.  Suelen estar escritos por inventores y abogados.  El segundo sitio es Wikipedia.  La enciclopedia online permite a la IA ingerir una gran cantidad de datos hist\u00f3ricos, legales, cient\u00edficos\u2026 La \u00faltima es Scribd, una biblioteca digital a la que solo se puede acceder mediante suscripci\u00f3n.<\/p>\n<h2>Un entrenamiento desafiado<\/h2>\n<p>EL <em>El Correo de Washington<\/em> clasific\u00f3, con la ayuda de Similarweb, los 15 millones de sitios en 11 categor\u00edas.  El m\u00e1s grande es Enterprise &#038; Industry, que comprende el 16% del total.  El primero de este grupo en tener IA capacitadas es Fool.com, un sitio de asesoramiento de inversiones.  Ocupa el puesto 13 de todos los sitios web.  El sitio de financiaci\u00f3n colectiva del proyecto Kickstarter ocupa el puesto 25.  Tenga en cuenta que Patreon.com, un sitio de donaciones para creadores, ocupa el puesto 2398.  El problema es que estos dos sitios podr\u00edan haber permitido a AI acceder al contenido de los artistas sin su consentimiento y crear obras similares sin compensaci\u00f3n financiera.  Se han presentado denuncias sobre este tema en Estados Unidos contra Stability AI, MidJourney o incluso DeviantArt.<\/p>\n<p>Las noticias y los medios representan el 10% de todos los sitios web.  El peri\u00f3dico estadounidense enumera los <em>New York Times<\/em>, <em>Tiempos de Los \u00c1ngeles<\/em>, <em>El guardi\u00e1n<\/em>, <em>Forbes<\/em>, <em>HuffPost<\/em> o incluso a s\u00ed mismo en la base de datos.  Al igual que los artistas, muchos periodistas y editores critican el uso de sus historias sin consentimiento ni compensaci\u00f3n.<\/p>\n<h2>filtrado aproximado<\/h2>\n<p>El C4 de Google se filtra para eliminar duplicados, p\u00e1ginas m\u00f3viles innecesarias y contenido malicioso.  Pero en la categor\u00eda de Noticias y Medios, el uso de sitios como RT, un medio afiliado al gobierno ruso, Breibart, un sitio de extrema derecha, o incluso Vdare, un blog anti-inmigraci\u00f3n y supremacista plantea interrogantes.  Las IA podr\u00edan verse inducidas a hacer comentarios discriminatorios contra ciertos grupos \u00e9tnicos.<\/p>\n<p>EL <em>El Correo de Washington<\/em> <a rel=\"nofollow noopener\" href=\"https:\/\/www.washingtonpost.com\/technology\/interactive\/2023\/ai-chatbot-learning\/\" target=\"_blank\">liza<\/a> otros sitios que no han sido filtrados, incluidos cientos de sitios pornogr\u00e1ficos y m\u00e1s de 72,000 contenidos que evocan la esv\u00e1stica, la esv\u00e1stica.<\/p>\n<p>Otra categor\u00eda principal es Comunidad con el 5% de los sitios.  Incluye en particular contenido religioso.  De los 20 sitios principales, 14 son cristianos versus 2 jud\u00edos, 1 musulm\u00e1n, 1 morm\u00f3n, 1 testigo de Jehov\u00e1 y 1 que celebra todas las religiones.  Esta distribuci\u00f3n inequitativa puede influir en la IA en sus palabras.  Por ejemplo, en 2021, el GPT-3 de OpenAI, cuando se le pidi\u00f3 que completara la frase \u201cDos musulmanes entraron en un\u2026\u201d respondi\u00f3 con la descripci\u00f3n de acciones violentas en el 66 % de los casos.<\/p>\n<p>Este an\u00e1lisis de los datos de entrenamiento de IA demuestra que todav\u00eda queda mucho trabajo por hacer para filtrar los sitios web utilizados.  Los grandes modelos ling\u00fc\u00edsticos entrenan con contenidos a\u00fan m\u00e1s impactantes seg\u00fan los expertos que testifican al diario estadounidense.  Se dice que GPT-3 agrega 40 veces m\u00e1s datos que C4.  Sobre el tema del uso de contenido con derechos de autor, adem\u00e1s de las denuncias presentadas por los artistas, los actores comienzan a reaccionar.  Reddit est\u00e1 considerando cobrar por el uso de su contenido.  Meta y Twitter impiden la recuperaci\u00f3n en sus redes sociales.  Las CNIL europeas y americanas tambi\u00e9n podr\u00edan pedir m\u00e1s transparencia.<\/p>\n<\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/siecledigital.fr\/2023\/04\/24\/comment-les-ia-comme-chatgpt-sentrainent-elles\/\" rel=\"nofollow noopener\" target=\"_blank\">ttn-es-4<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Popular desde su lanzamiento a fines de 2022, la inteligencia artificial (AI) ChatGPT impresiona a sus usuarios por<\/p>\n","protected":false},"author":1,"featured_media":720782,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2],"tags":[131369,440,27261,246],"class_list":["post-720781","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-general","tag-chatgpt","tag-como","tag-entrenan","tag-las"],"_links":{"self":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/720781","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/comments?post=720781"}],"version-history":[{"count":0,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/720781\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media\/720782"}],"wp:attachment":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media?parent=720781"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/categories?post=720781"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/tags?post=720781"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}