{"id":861240,"date":"2023-07-19T06:39:52","date_gmt":"2023-07-19T06:39:52","guid":{"rendered":"https:\/\/teknomers.com\/es\/por-que-se-utilizan-datos-creados-por-computadora-para-entrenar-modelos-de-ia\/"},"modified":"2023-07-19T06:39:56","modified_gmt":"2023-07-19T06:39:56","slug":"por-que-se-utilizan-datos-creados-por-computadora-para-entrenar-modelos-de-ia","status":"publish","type":"post","link":"https:\/\/teknomers.com\/es\/por-que-se-utilizan-datos-creados-por-computadora-para-entrenar-modelos-de-ia\/","title":{"rendered":"Por qu\u00e9 se utilizan datos creados por computadora para entrenar modelos de IA"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div data-attribute=\"article-content-body\">\n<p>Las empresas de inteligencia artificial est\u00e1n explorando una nueva v\u00eda para obtener las cantidades masivas de datos necesarios para desarrollar poderosos modelos generativos: crear la informaci\u00f3n desde cero. <\/p>\n<p>Microsoft, OpenAI y Cohere se encuentran entre los grupos que prueban el uso de los llamados &#8220;datos sint\u00e9ticos&#8221;, informaci\u00f3n generada por computadora para entrenar sus sistemas de IA conocidos como modelos de lenguaje extenso (LLM), a medida que alcanzan los l\u00edmites de los datos creados por humanos que puede mejorar a\u00fan m\u00e1s la tecnolog\u00eda de punta.<\/p>\n<p>El lanzamiento de ChatGPT de OpenAI respaldado por Microsoft en noviembre pasado gener\u00f3 una avalancha de productos lanzados p\u00fablicamente este a\u00f1o por compa\u00f1\u00edas como Google y Anthropic, que pueden producir texto, im\u00e1genes o c\u00f3digo plausibles en respuesta a indicaciones simples. <\/p>\n<p>La tecnolog\u00eda, conocida como IA generativa, ha generado un aumento del inter\u00e9s de los inversores y los consumidores, con las empresas de tecnolog\u00eda m\u00e1s grandes del mundo, incluidas Google, Microsoft y Meta, compitiendo para dominar el espacio.<\/p>\n<p>Actualmente, los LLM que impulsan chatbots como ChatGPT de OpenAI y Bard de Google se capacitan principalmente extrayendo Internet.  Los datos utilizados para entrenar estos sistemas incluyen libros digitalizados, art\u00edculos de noticias, blogs, consultas de b\u00fasqueda, publicaciones de Twitter y Reddit, videos de YouTube e im\u00e1genes de Flickr, entre otros contenidos. <\/p>\n<p>Luego, se utilizan humanos para proporcionar retroalimentaci\u00f3n y llenar los vac\u00edos en la informaci\u00f3n en un proceso conocido como aprendizaje reforzado por retroalimentaci\u00f3n humana (RLHF). <\/p>\n<p>Pero a medida que el software de IA generativa se vuelve m\u00e1s sofisticado, incluso las empresas de IA con mucho dinero se est\u00e1n quedando sin datos f\u00e1cilmente accesibles y de alta calidad para capacitarse.  Mientras tanto, est\u00e1n bajo el fuego de los reguladores, artistas y organizaciones de medios de todo el mundo por el volumen y la procedencia de los datos personales consumidos por la tecnolog\u00eda.<\/p>\n<p>En un evento en Londres en mayo, se le pregunt\u00f3 al director ejecutivo de OpenAI, Sam Altman, si estaba preocupado por las investigaciones regulatorias sobre las posibles violaciones de privacidad de ChatGPT.  Altman lo rest\u00f3 importancia y dijo que estaba &#8220;bastante seguro de que pronto todos los datos ser\u00e1n datos sint\u00e9ticos&#8221;. <\/p>\n<p>Los datos gen\u00e9ricos de la web ya no son lo suficientemente buenos para impulsar el rendimiento de los modelos de IA, seg\u00fan los desarrolladores. <\/p>\n<p>\u201cSi pudiera obtener todos los datos que necesita de la web, eso ser\u00eda fant\u00e1stico\u201d, dijo Aidan Gomez, director ejecutivo de Cohere, la empresa emergente LLM de $ 2 mil millones.  \u201cEn realidad, la web es tan ruidosa y desordenada que no es realmente representativa de los datos que desea.  La web simplemente no hace todo lo que necesitamos\u201d.<\/p>\n<p>Actualmente, los modelos m\u00e1s vanguardistas, como el GPT-4 de OpenAI, se acercan al rendimiento del nivel humano en \u00e1reas como la escritura y la codificaci\u00f3n, y pueden aprobar puntos de referencia como el examen de la barra de EE. UU. <\/p>\n<p>Para mejorar dr\u00e1sticamente su rendimiento y poder abordar los desaf\u00edos en ciencia, medicina o negocios, los modelos de IA requerir\u00e1n conjuntos de datos \u00fanicos y sofisticados.  Estos tendr\u00e1n que ser creados por expertos mundiales como cient\u00edficos, m\u00e9dicos, autores, actores o ingenieros, o adquiridos como datos de propiedad de grandes corporaciones como farmac\u00e9uticas, bancos y minoristas.  Sin embargo, \u201cdatos creados por humanos.  .  .  es extremadamente caro\u201d, dijo G\u00f3mez. <\/p>\n<p>La nueva tendencia de utilizar datos sint\u00e9ticos elude este costoso requisito.  En cambio, las empresas pueden usar modelos de IA para producir texto, c\u00f3digo o informaci\u00f3n m\u00e1s compleja relacionada con la atenci\u00f3n m\u00e9dica o el fraude financiero.  Estos datos sint\u00e9ticos se utilizan luego para capacitar a los LLM avanzados para que sean cada vez m\u00e1s capaces.<\/p>\n<p>Seg\u00fan Gomez, Cohere, as\u00ed como varios de sus competidores, ya utilizan datos sint\u00e9ticos que luego son ajustados y modificados por humanos.  \u201c[Synthetic data] ya es enorme.  .  .  incluso si no se difunde ampliamente\u201d, dijo. <\/p>\n<p>Por ejemplo, para entrenar a un modelo en matem\u00e1ticas avanzadas, Cohere podr\u00eda usar dos modelos de IA que hablan entre s\u00ed, donde uno act\u00faa como tutor de matem\u00e1ticas y el otro como estudiante. <\/p>\n<p>\u201cEst\u00e1n teniendo una conversaci\u00f3n sobre trigonometr\u00eda.  .  .  y es todo sint\u00e9tico\u201d, dijo G\u00f3mez.  \u201cTodo es simplemente imaginado por el modelo.  Y luego el humano mira esta conversaci\u00f3n y entra y la corrige si el modelo dijo algo mal.  Ese es el statu quo hoy\u201d.<\/p>\n<p>Dos estudios recientes de Microsoft Research mostraron que los datos sint\u00e9ticos podr\u00edan usarse para entrenar modelos m\u00e1s peque\u00f1os y simples que el software de \u00faltima generaci\u00f3n como GPT-4 de OpenAI o PaLM-2 de Google. <\/p>\n<p>Un art\u00edculo describ\u00eda un conjunto de datos sint\u00e9ticos de historias cortas generadas por GPT-4, que solo conten\u00edan palabras que un ni\u00f1o t\u00edpico de cuatro a\u00f1os podr\u00eda entender.  Este conjunto de datos, conocido como <a rel=\"nofollow noopener\" href=\"https:\/\/arxiv.org\/abs\/2305.07759\" target=\"_blank\" data-trackable=\"link\">Historias diminutas<\/a>, luego se us\u00f3 para entrenar a un LLM simple que pudo producir historias fluidas y gramaticalmente correctas.  El otro <a rel=\"nofollow noopener\" href=\"https:\/\/arxiv.org\/pdf\/2306.11644.pdf\" target=\"_blank\" data-trackable=\"link\">papel<\/a> demostraron que la IA podr\u00eda entrenarse en c\u00f3digo Python sint\u00e9tico en forma de libros de texto y ejercicios, que descubrieron que funcionaba relativamente bien en tareas de codificaci\u00f3n. <\/p>\n<p>Han surgido nuevas empresas como Scale AI y Gretel.ai para proporcionar datos sint\u00e9ticos como servicio.  Gretel, creada por exanalistas de inteligencia de EE. UU. de la Agencia de Seguridad Nacional y la CIA, trabaja con empresas como Google, HSBC, Riot Games e Illumina para aumentar sus datos existentes con versiones sint\u00e9ticas que pueden ayudar a entrenar mejores modelos de IA. <\/p>\n<p>El componente clave de los datos sint\u00e9ticos, seg\u00fan el director ejecutivo de Gretel, Ali Golshan, es que preserva la privacidad de todas las personas en un conjunto de datos, al mismo tiempo que mantiene su integridad estad\u00edstica. <\/p>\n<p>Los datos sint\u00e9ticos bien elaborados tambi\u00e9n pueden eliminar sesgos y desequilibrios en los datos existentes, agreg\u00f3.  \u201cLos fondos de cobertura pueden mirar los eventos del cisne negro y, digamos, crear cientos de variaciones para ver si nuestros modelos fallan\u201d, dijo Golshan.  Para los bancos, donde el fraude normalmente constituye menos de una cent\u00e9sima parte del porcentaje de los datos totales, el software de Gretel puede generar &#8220;miles de escenarios de casos extremos sobre fraude y entrenar [AI] modelos con \u00e9l.\u201d <\/p>\n<p>Los cr\u00edticos se\u00f1alan que no todos los datos sint\u00e9ticos se seleccionar\u00e1n cuidadosamente para reflejar o mejorar los datos del mundo real.  A medida que el texto y las im\u00e1genes generados por IA comienzan a llenar Internet, es probable que las empresas de IA que rastrean la web en busca de datos de entrenamiento terminen inevitablemente usando datos sin procesar producidos por versiones primitivas de sus propios modelos, un fen\u00f3meno conocido como &#8220;comida de perros&#8221;. . <\/p>\n<p><a rel=\"nofollow noopener\" href=\"https:\/\/arxiv.org\/pdf\/2305.17493v2.pdf\" target=\"_blank\" data-trackable=\"link\">Investigaci\u00f3n<\/a> de universidades como Oxford y Cambridge, advirtieron recientemente que entrenar modelos de IA en sus propios resultados sin procesar, que pueden contener falsedades o fabricaciones, podr\u00eda corromper y degradar la tecnolog\u00eda con el tiempo, causando &#8220;defectos irreversibles&#8221;. <\/p>\n<p>Golshan est\u00e1 de acuerdo en que la capacitaci\u00f3n en datos sint\u00e9ticos deficientes podr\u00eda impedir el progreso.  \u201cEl contenido en la web es cada vez m\u00e1s generado por IA, y creo que eso conducir\u00e1 a la degradaci\u00f3n con el tiempo. [because] Los LLM est\u00e1n produciendo conocimiento regurgitado, sin nuevos conocimientos\u201d, dijo. <\/p>\n<p>A pesar de estos riesgos, los investigadores de IA como Gomez de Cohere dicen que los datos sint\u00e9ticos tienen el potencial de acelerar el camino hacia los sistemas de IA superinteligentes. <\/p>\n<p>\u201cLo que realmente quieres es que los modelos puedan aprender por s\u00ed mismos.  Quiere que sean capaces de.  .  .  hacer sus propias preguntas, descubrir nuevas verdades y crear su propio conocimiento\u201d, dijo.  \u201cEse es el sue\u00f1o\u201d. <\/p>\n<\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/www.ft.com\/content\/053ee253-820e-453a-a1d5-0f24985258de\" rel=\"nofollow noopener\" target=\"_blank\">ttn-es-56<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Las empresas de inteligencia artificial est\u00e1n explorando una nueva v\u00eda para obtener las cantidades masivas de datos necesarios<\/p>\n","protected":false},"author":1,"featured_media":861241,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2],"tags":[2312,47260,1755,11998,7906,18,231,387,10365],"class_list":["post-861240","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-general","tag-computadora","tag-creados","tag-datos","tag-entrenar","tag-modelos","tag-para","tag-por","tag-que","tag-utilizan"],"_links":{"self":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/861240","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/comments?post=861240"}],"version-history":[{"count":0,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/861240\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media\/861241"}],"wp:attachment":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media?parent=861240"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/categories?post=861240"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/tags?post=861240"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}