{"id":1433494,"date":"2024-11-09T15:14:30","date_gmt":"2024-11-09T15:14:30","guid":{"rendered":"https:\/\/teknomers.com\/es\/los-grupos-de-ia-se-apresuran-a-redisenar-las-pruebas-de-modelos-y-crear-nuevos-puntos-de-referencia\/"},"modified":"2024-11-09T15:14:36","modified_gmt":"2024-11-09T15:14:36","slug":"los-grupos-de-ia-se-apresuran-a-redisenar-las-pruebas-de-modelos-y-crear-nuevos-puntos-de-referencia","status":"publish","type":"post","link":"https:\/\/teknomers.com\/es\/los-grupos-de-ia-se-apresuran-a-redisenar-las-pruebas-de-modelos-y-crear-nuevos-puntos-de-referencia\/","title":{"rendered":"Los grupos de IA se apresuran a redise\u00f1ar las pruebas de modelos y crear nuevos puntos de referencia"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div id=\"article-body\">\n<p>Los grupos tecnol\u00f3gicos se apresuran a redise\u00f1ar la forma en que prueban y eval\u00faan sus modelos de inteligencia artificial, a medida que la tecnolog\u00eda que avanza r\u00e1pidamente supera los puntos de referencia actuales.<\/p>\n<p>OpenAI, Microsoft, Meta y Anthropic han anunciado recientemente planes para crear agentes de IA que puedan ejecutar tareas para humanos de forma aut\u00f3noma en su nombre. Para hacer esto de manera efectiva, los sistemas deben ser capaces de realizar acciones cada vez m\u00e1s complejas, utilizando el razonamiento y la planificaci\u00f3n. <\/p>\n<p>Las empresas realizan \u201cevaluaciones\u201d de modelos de IA por parte de equipos de personal e investigadores externos. Se trata de pruebas estandarizadas, conocidas como benchmarks, que eval\u00faan las capacidades de los modelos y el rendimiento de sistemas de diferentes grupos o versiones anteriores.<\/p>\n<p>Sin embargo, los avances recientes en la tecnolog\u00eda de inteligencia artificial han significado que muchos de los modelos m\u00e1s nuevos hayan podido acercarse o superar el 90 por ciento de precisi\u00f3n en las pruebas existentes, lo que destaca la necesidad de nuevos puntos de referencia. <\/p>\n<p>\u201cEl ritmo de la industria es extremadamente r\u00e1pido. Ahora estamos empezando a saturar nuestra capacidad para medir algunos de estos sistemas. [and as an industry] cada vez es m\u00e1s dif\u00edcil evaluar [them]\u201d, dijo Ahmad Al-Dahle, l\u00edder de IA generativa en Meta.<\/p>\n<p>Para abordar este problema, varios grupos tecnol\u00f3gicos, incluidos Meta, OpenAI y Microsoft, han creado sus propios puntos de referencia internos y pruebas de inteligencia. Pero esto ha generado preocupaci\u00f3n dentro de la industria sobre la capacidad de comparar la tecnolog\u00eda en ausencia de pruebas p\u00fablicas. <\/p>\n<p>\u201cMuchos de estos puntos de referencia nos permiten saber qu\u00e9 tan lejos estamos de la automatizaci\u00f3n de tareas y trabajos. Sin que se hagan p\u00fablicos, es dif\u00edcil para las empresas y la sociedad en general saberlo\u201d, dijo Dan Hendrycks, director ejecutivo del Centro para la Seguridad de la IA y asesor de xAI de Elon Musk.<\/p>\n<p>Los puntos de referencia p\u00fablicos actuales (Hellaswag y MMLU) utilizan preguntas de opci\u00f3n m\u00faltiple para evaluar el sentido com\u00fan y el conocimiento sobre diversos temas. Sin embargo, los investigadores sostienen que este m\u00e9todo se est\u00e1 volviendo redundante y que los modelos necesitan problemas m\u00e1s complejos.<\/p>\n<p>&#8220;Estamos llegando a una era en la que muchas de las pruebas escritas por humanos ya no son suficientes como buen bar\u00f3metro de la capacidad de los modelos&#8221;, dijo Mark Chen, vicepresidente senior de investigaci\u00f3n de OpenAI. &#8220;Eso crea un nuevo desaf\u00edo para nosotros como mundo de la investigaci\u00f3n&#8221;.<\/p>\n<p>Un punto de referencia p\u00fablico, SWE-bench Verified, se actualiz\u00f3 en agosto para evaluar mejor los sistemas aut\u00f3nomos en funci\u00f3n de los comentarios de las empresas, incluida OpenAI. <\/p>\n<p>Utiliza problemas de software del mundo real procedentes de la plataforma de desarrollo GitHub e implica proporcionar al agente de IA un repositorio de c\u00f3digo y un problema de ingenier\u00eda, pidi\u00e9ndole que lo solucione. Las tareas requieren razonamiento para completarse.<\/p>\n<p>En esta medida, el \u00faltimo modelo de OpenAI, la versi\u00f3n preliminar GPT-4o, resuelve el 41,4 por ciento de los problemas, mientras que Claude 3.5 Sonnet de Anthropic obtiene el 49 por ciento.<\/p>\n<p>\u201cEs mucho m\u00e1s desafiante [with agentic systems] porque es necesario conectar esos sistemas a muchas herramientas adicionales\u201d, dijo Jared Kaplan, director cient\u00edfico de Anthropic. <\/p>\n<p>&#8220;B\u00e1sicamente, hay que crear un entorno de prueba completo para que jueguen. No es tan simple como simplemente brindarles un mensaje, ver cu\u00e1l es la finalizaci\u00f3n y luego evaluarlo&#8221;, agreg\u00f3.<\/p>\n<p>Otro factor importante al realizar pruebas m\u00e1s avanzadas es asegurarse de que las preguntas de referencia se mantengan fuera del dominio p\u00fablico, para garantizar que los modelos no &#8220;hagan trampa&#8221; de manera efectiva al generar las respuestas a partir de datos de entrenamiento en lugar de resolver el problema. <\/p>\n<p>La capacidad de razonar y planificar es fundamental para desbloquear el potencial de los agentes de IA que pueden realizar tareas en m\u00faltiples pasos y aplicaciones, y corregirse a s\u00ed mismos. <\/p>\n<p>&#8220;Estamos descubriendo nuevas formas de medir estos sistemas y, por supuesto, una de ellas es el razonamiento, que es una frontera importante&#8221;, dijo Ece Kamar, vicepresidente y director del laboratorio de Fronteras de la IA en Microsoft Research. <\/p>\n<p>Como resultado, Microsoft est\u00e1 trabajando en su propio benchmark interno, incorporando problemas que no han aparecido previamente en el entrenamiento para evaluar si sus modelos de IA pueden razonar como lo har\u00eda un humano. <\/p>\n<p>Algunos, incluidos investigadores de Apple, han cuestionado si los grandes modelos de lenguaje actuales son &#8220;razonamiento&#8221; o simplemente &#8220;coincidencia de patrones&#8221; con los datos similares m\u00e1s cercanos observados en su entrenamiento.<\/p>\n<p>\u201cEn los dominios m\u00e1s estrechos [that] a las empresas les importa, razonan\u201d, dijo Ruchir Puri, cient\u00edfico jefe de IBM Research. \u201c[The debate is around] Este concepto m\u00e1s amplio de razonamiento a nivel humano, casi lo ubicar\u00eda en el contexto de la inteligencia artificial general. \u00bfRealmente razonan o est\u00e1n repitiendo como loros?<\/p>\n<p>OpenAI mide el razonamiento principalmente a trav\u00e9s de evaluaciones que cubren matem\u00e1ticas, materias STEM y tareas de codificaci\u00f3n.<\/p>\n<p>\u201cEl razonamiento es un t\u00e9rmino muy grandioso. Cada uno lo define de forma diferente y tiene su propia interpretaci\u00f3n. . . este l\u00edmite es muy confuso [and] Tratamos de no estancarnos demasiado en esa distinci\u00f3n en s\u00ed, pero observamos si est\u00e1 impulsando la utilidad, el rendimiento o las capacidades\u201d, dijo Chen de OpenAI.<\/p>\n<aside aria-labelledby=\"aside-label\" class=\"n-content-recommended--single-story n-content-recommended--inset\" data-component=\"recommended\">\n<p class=\"n-content-recommended__title\">Recomendado<\/p>\n<div class=\"o-teaser o-teaser--article o-teaser--small o-teaser--stacked o-teaser--has-image js-teaser\" data-id=\"8772d32b-99df-497f-9bd7-4244f38d0439\">\n<div class=\"o-teaser__image-container js-teaser-image-container\">\n<div class=\"o-teaser__image-placeholder\" style=\"aspect-ratio:2048\/1152\"><\/div>\n<\/div>\n<\/div>\n<\/aside>\n<p>La necesidad de nuevos puntos de referencia tambi\u00e9n ha llevado a esfuerzos de organizaciones externas. <\/p>\n<p>En septiembre, la empresa emergente Scale AI y Hendrycks anunciaron un proyecto llamado \u201cEl \u00faltimo examen de la humanidad\u201d, que reuni\u00f3 preguntas complejas de expertos de diferentes disciplinas que requer\u00edan un razonamiento abstracto para completarse. <\/p>\n<p>Otro ejemplo es FrontierMath, un novedoso punto de referencia publicado esta semana, creado por matem\u00e1ticos expertos. Seg\u00fan esta prueba, los modelos m\u00e1s avanzados pueden completar menos del 2 por ciento de las preguntas.<\/p>\n<p>Sin embargo, sin un acuerdo expl\u00edcito sobre la medici\u00f3n de dichas capacidades, los expertos advierten que puede resultar dif\u00edcil para las empresas evaluar a sus competidores o para las empresas y los consumidores comprender el mercado.<\/p>\n<p>\u201cNo hay una manera clara de decir &#8216;este modelo es definitivamente mejor que este modelo&#8217; [because] cuando una medida se convierte en un objetivo, deja de ser una buena medida\u201d y los modelos son entrenados para superar los puntos de referencia establecidos, dijo Al-Dahle de Meta.<\/p>\n<p>&#8220;Es algo en lo que, como industria en su conjunto, estamos trabajando&#8221;.<\/p>\n<p><em>Informaci\u00f3n adicional de Hannah Murphy en San Francisco<\/em><\/p>\n<\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/www.ft.com\/content\/866ad6e9-f8fe-451f-9b00-cb9f638c7c59\" rel=\"nofollow noopener\" target=\"_blank\">ttn-es-56<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Los grupos tecnol\u00f3gicos se apresuran a redise\u00f1ar la forma en que prueban y eval\u00faan sus modelos de inteligencia<\/p>\n","protected":false},"author":1,"featured_media":1433495,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2],"tags":[7613,2690,8177,246,36,7906,2431,4649,1124,83586,8936],"class_list":["post-1433494","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-general","tag-apresuran","tag-crear","tag-grupos","tag-las","tag-los","tag-modelos","tag-nuevos","tag-pruebas","tag-puntos","tag-redisenar","tag-referencia"],"_links":{"self":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/1433494","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/comments?post=1433494"}],"version-history":[{"count":0,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/1433494\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media\/1433495"}],"wp:attachment":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media?parent=1433494"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/categories?post=1433494"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/tags?post=1433494"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}