{"id":928587,"date":"2023-08-30T22:03:40","date_gmt":"2023-08-30T22:03:40","guid":{"rendered":"https:\/\/teknomers.com\/es\/como-evitar-que-chatgpt-robe-su-contenido-y-trafico\/"},"modified":"2023-08-30T22:03:44","modified_gmt":"2023-08-30T22:03:44","slug":"como-evitar-que-chatgpt-robe-su-contenido-y-trafico","status":"publish","type":"post","link":"https:\/\/teknomers.com\/es\/como-evitar-que-chatgpt-robe-su-contenido-y-trafico\/","title":{"rendered":"C\u00f3mo evitar que ChatGPT robe su contenido y tr\u00e1fico"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div id=\"articlebody\">\n<div class=\"separator\" style=\"clear: both;\"><\/div>\n<p>ChatGPT y modelos de lenguaje grande (LLM) similares han agregado mayor complejidad al panorama de amenazas en l\u00ednea en constante crecimiento.  Los ciberdelincuentes ya no necesitan habilidades avanzadas de codificaci\u00f3n para ejecutar fraudes y otros ataques da\u00f1inos contra empresas y clientes en l\u00ednea, gracias a los bots como servicio, los servidores proxy residenciales, las granjas CAPTCHA y otras herramientas de f\u00e1cil acceso. <\/p>\n<p>Ahora, la \u00faltima tecnolog\u00eda que perjudica los resultados de las empresas es <a rel=\"nofollow noopener\" href=\"https:\/\/datadome.co\/webinars\/protect-content-and-web-traffic-from-chatgpt\/\" target=\"_blank\">ChatGPT<\/a>.<\/p>\n<p>ChatGPT, OpenAI y otros LLM no solo han planteado cuestiones \u00e9ticas al <a rel=\"nofollow noopener\" href=\"https:\/\/datadome.co\/threat-research\/how-chatgpt-openai-might-use-your-content-now-in-the-future\/\" target=\"_blank\">entrenando a sus modelos<\/a> en datos extra\u00eddos de Internet.  Los LLM est\u00e1n impactando negativamente el tr\u00e1fico web de las empresas, lo que puede ser extremadamente perjudicial para las empresas. <\/p>\n<h2><strong>3 riesgos que presentan los LLM, ChatGPT y los complementos ChatGPT<\/strong><\/h2>\n<p>Entre las amenazas que ChatGPT y los complementos ChatGPT pueden plantear contra las empresas en l\u00ednea, hay tres riesgos clave en los que nos centraremos:<\/p>\n<ol>\n<li><a rel=\"nofollow noopener\" href=\"https:\/\/datadome.co\/learning-center\/fight-content-theft\/\" target=\"_blank\"><strong>Robo de contenido<\/strong><\/a>  (o volver a publicar datos sin el permiso de la fuente original) puede perjudicar la autoridad, las clasificaciones SEO y el valor percibido de su contenido original.<\/li>\n<li><strong>Trafico reducido<\/strong> a su sitio web o aplicaci\u00f3n se vuelve problem\u00e1tico, ya que los usuarios que obtienen respuestas directamente a trav\u00e9s de ChatGPT y sus complementos ya no necesitan encontrar o visitar sus p\u00e1ginas.<\/li>\n<li><strong>Violaciones de datos<\/strong>, o incluso la amplia distribuci\u00f3n accidental de datos confidenciales, son cada vez m\u00e1s probables a cada segundo.  No todos los datos &#8220;de cara al p\u00fablico&#8221; est\u00e1n destinados a ser redistribuidos o compartidos fuera del contexto original, pero los raspadores no conocen la diferencia.  Los resultados pueden incluir cualquier cosa, desde una p\u00e9rdida de ventaja competitiva hasta da\u00f1os graves a la reputaci\u00f3n de su marca.<\/li>\n<\/ol>\n<p>Dependiendo de su modelo de negocio, su empresa deber\u00eda considerar formas de optar por no utilizar sus datos para capacitar a los LLM. <\/p>\n<h2><strong>Las 3 industrias m\u00e1s afectadas<\/strong><\/h2>\n<p>Las industrias con mayor riesgo de sufrir da\u00f1os provocados por ChatGPT son aquellas en las que la privacidad de los datos es una de las principales preocupaciones, el contenido \u00fanico y la propiedad intelectual son diferenciadores clave, y los anuncios, los ojos y los visitantes \u00fanicos son una fuente importante de ingresos.  Estas industrias incluyen:<\/p>\n<ol>\n<li><strong>Comercio electr\u00f3nico<\/strong>: Las descripciones de productos y los modelos de precios pueden ser diferenciadores clave.<\/li>\n<li><strong>Transmisi\u00f3n, medios y publicaciones:<\/strong> Todo sobre brindar a la audiencia contenido \u00fanico, creativo y entretenido.<\/li>\n<li><strong>Anuncios clasificados<\/strong>: Los ingresos por publicidad de pago por clic (PPC) pueden verse gravemente afectados por una disminuci\u00f3n en el tr\u00e1fico del sitio web (as\u00ed como por otros problemas de bots como fraude de clics o an\u00e1lisis sesgados del sitio debido a raspadores).<\/li>\n<\/ol>\n<section class=\"check_two_webinar clear\"><span class=\"wn-label\">PR\u00d3XIMO SEMINARIO WEB<\/span><a rel=\"nofollow noopener\" class=\"wn-head\" href=\"https:\/\/thn.news\/PshPl4nD\" target=\"_blank\"><\/p>\n<p>Proteja su marca: defendi\u00e9ndose contra el raspado de contenido de ChatGPT<\/p>\n<p><\/a><\/p>\n<p class=\"wn-description\">\u00bfLe preocupa que ChatGPT elimine su contenido?  Aprenda a burlar a los robots de IA, defender su contenido y proteger su tr\u00e1fico web.<\/p>\n<p><a rel=\"nofollow noopener\" class=\"wn-button-2\" href=\"https:\/\/thn.news\/PshPl4nD\" target=\"_blank\">\u00danase a la sesi\u00f3n<\/a><\/section>\n<h2><strong>C\u00f3mo ChatGPT obtiene datos de entrenamiento<\/strong><\/h2>\n<p>De acuerdo a un <a rel=\"nofollow noopener\" href=\"https:\/\/arxiv.org\/abs\/2005.14165\" target=\"_blank\">trabajo de investigaci\u00f3n<\/a> publicado por OpenAI, ChatGPT3 fue entrenado en varios conjuntos de datos:<\/p>\n<ul>\n<li>rastreo com\u00fan<\/li>\n<li>WebText2<\/li>\n<li>Libros1 y Libros2<\/li>\n<li>Wikipedia<\/li>\n<\/ul>\n<p>La mayor cantidad de datos de entrenamiento proviene de <strong>rastreo com\u00fan<\/strong>, que proporciona acceso a informaci\u00f3n web a trav\u00e9s de un repositorio abierto de datos de rastreo web.  El robot rastreador Common Crawl, tambi\u00e9n conocido como <strong>CCBot<\/strong>aprovecha Apache Nutch para permitir a los desarrolladores crear scrapers a gran escala.<\/p>\n<p>La versi\u00f3n m\u00e1s actual de CCBot se rastrea desde Amazon AWS y se identifica con un agente de usuario de &#8216;CCBot\/2.0&#8217;.  Pero las empresas que quieran permitir CCBot no deber\u00edan confiar \u00fanicamente en el agente de usuario para identificarlo, porque muchas <a rel=\"nofollow noopener\" href=\"https:\/\/datadome.co\/learning-center\/scrapers-bad-bots-steal-content\/\" target=\"_blank\">Los robots malos falsifican a sus agentes de usuario.<\/a> para disfrazarse de buenos bots y evitar ser bloqueados.<\/p>\n<p>Para permitir CCBot en su sitio web, utilice atributos como rangos de IP o DNS inverso.  A <strong>bloquear<\/strong> <strong>ChatGPT<\/strong>su sitio web deber\u00eda, como m\u00ednimo, bloquear el tr\u00e1fico de CCBot. <\/p>\n<h2><strong>3 formas de bloquear CCBot<\/strong><\/h2>\n<ol style=\"text-align: left;\">\n<li>\n<strong>Robots.txt:<\/strong> Dado que CCBot respeta los archivos robots.txt, puedes bloquearlo con las siguientes l\u00edneas de c\u00f3digo:<\/li>\n<blockquote><p>Agente de usuario: CCBot <br \/>No permitir: \/<\/p><\/blockquote>\n<li><strong>Bloqueo del agente de usuario de CCBot: <\/strong>Puede bloquear de forma segura un bot no deseado a trav\u00e9s del agente de usuario.  (No es que, por el contrario, <em>permitiendo<\/em> El tr\u00e1fico de bots a trav\u00e9s del agente de usuario puede ser inseguro y los atacantes pueden abusar f\u00e1cilmente de \u00e9l).<\/li>\n<li><strong>Software de gesti\u00f3n de robots:<\/strong> Ya sea para ChatGPT o una base de datos de la web oscura, la mejor manera de evitar que los bots rastreen sus sitios web, aplicaciones y API es con protecci\u00f3n especializada contra bots que utiliza el aprendizaje autom\u00e1tico para mantenerse al d\u00eda con la evoluci\u00f3n de las t\u00e1cticas de amenazas en tiempo real.<\/li>\n<\/ol>\n<h2><strong>Los raspadores siempre pueden encontrar soluciones<\/strong><\/h2>\n<p>uso de LLM <strong>robots raspadores<\/strong> para recopilar datos de entrenamiento.  Si bien bloquear CCBot podr\u00eda ser eficaz para bloquear los raspadores ChatGPT en la actualidad, no se sabe qu\u00e9 deparar\u00e1 el futuro para los raspadores LLM.  En el futuro, si demasiados sitios web bloquean el acceso de OpenAI (por ejemplo) a su contenido, los desarrolladores podr\u00edan decidir dejar de respetar el archivo robots.txt y dejar de declarar su identidad de rastreador en el agente de usuario. <\/p>\n<p>Otra posibilidad es que OpenAI podr\u00eda utilizar su asociaci\u00f3n con Microsoft para acceder a los datos del scraper de Microsoft Bing, lo que har\u00eda la situaci\u00f3n m\u00e1s desafiante para los propietarios de sitios web.  Los bots de Bing se identifican como Bingbot, pero bloquearlos podr\u00eda causar problemas al impedir que su sitio sea indexado en el motor de b\u00fasqueda de Bing, lo que resultar\u00eda en menos visitantes humanos.<\/p>\n<p>Podr\u00eda enfrentar problemas similares al bloquear LLM Bard de Google (competidor de ChatGPT).  Google es vago sobre el origen y la recopilaci\u00f3n de los datos p\u00fablicos utilizados para entrenar a Bard, pero es posible que Bard est\u00e9, o est\u00e9, entrenado con datos recopilados por los raspadores de Googlebot.  Al igual que con Bingbot, bloquear el robot de Google probablemente no ser\u00eda prudente, ya que afectar\u00eda la forma en que se indexa su sitio web y la forma en que el motor de b\u00fasqueda de Google dirige el tr\u00e1fico a su sitio.  El resultado podr\u00eda suponer una importante ca\u00edda de visitantes.<\/p>\n<h2><strong>Uso de complementos para acceder a datos en vivo<\/strong><\/h2>\n<p>Una de las principales limitaciones de modelos como ChatGPT es la falta de acceso a datos en vivo.  Dado que se capacit\u00f3 con un conjunto de datos que finaliza en 2021, no puede proporcionar la informaci\u00f3n m\u00e1s relevante y actualizada.  Ah\u00ed es donde entran los complementos.<\/p>\n<p><a rel=\"nofollow noopener\" href=\"https:\/\/datadome.co\/threat-research\/how-chatgpt-plugins-work\/\" target=\"_blank\"><strong>Complementos<\/strong><\/a>  se utilizan para conectar LLM como ChatGPT a herramientas externas y permitir que los LLM accedan a datos externos disponibles en l\u00ednea, que pueden incluir datos privados y noticias en tiempo real.  Los complementos tambi\u00e9n permiten a los usuarios completar acciones en l\u00ednea (por ejemplo, reservar un vuelo o pedir comida) a trav\u00e9s de llamadas API.<\/p>\n<p>Algunas empresas est\u00e1n desarrollando sus propios complementos para proporcionar una nueva forma para que los usuarios interact\u00faen con su contenido\/servicios a trav\u00e9s de ChatGPT.  Pero, dependiendo de su industria, permitir que los usuarios interact\u00faen con su sitio web a trav\u00e9s de complementos ChatGPT de terceros puede significar que sus usuarios vean menos anuncios, as\u00ed como un menor tr\u00e1fico a su sitio web. <\/p>\n<p>Tambi\u00e9n puede notar que los usuarios est\u00e1n menos dispuestos a pagar por sus funciones premium una vez que sus funciones puedan replicarse a trav\u00e9s de complementos ChatGPT de terceros.  Por ejemplo, un cliente web no oficial que interact\u00fae con su sitio podr\u00eda ofrecer funciones premium a trav\u00e9s de su interfaz de usuario.<\/p>\n<h2><strong>C\u00f3mo identificar solicitudes de complemento ChatGPT<\/strong><\/h2>\n<p>La documentaci\u00f3n de OpenAI indica que las solicitudes con un encabezado HTTP de agente de usuario espec\u00edfico (con token: &#8220;ChatGPT-User&#8221;) provienen de complementos de ChatGPT.  Pero la documentaci\u00f3n no establece que el agente de usuario divulgado sea el <strong>solo<\/strong> agente de usuario que pueden utilizar los complementos al realizar solicitudes HTTP.<\/p>\n<p>Por lo tanto, a medida que los complementos de ChatGPT interact\u00faan con API de terceros, las API pueden realizar cualquier tipo de solicitudes HTTP desde su propia infraestructura.  El siguiente diagrama muestra lo que sucede cuando se utiliza un &#8220;complemento de deportes en vivo&#8221; ficticio con ChatGPT para obtener una actualizaci\u00f3n sobre un evento deportivo.<\/p>\n<div class=\"separator\" style=\"clear: both;\"><img decoding=\"async\" src=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2023\/08\/Como-evitar-que-ChatGPT-robe-su-contenido-y-trafico.png\" alt=\"Complementos de ChatGPT\" border=\"0\" data-original-height=\"585\" data-original-width=\"1024\" title=\"Complementos de ChatGPT\"\/><\/div>\n<ol>\n<li>ChatGPT activa el complemento Live Sport y realiza una solicitud a los puntos finales de la API seg\u00fan los par\u00e1metros del mensaje del usuario. <\/li>\n<li>El complemento realiza una solicitud HTTP para rastrear un sitio web de deportes y obtener la informaci\u00f3n m\u00e1s reciente sobre el evento. <\/li>\n<li>Luego, la informaci\u00f3n se devuelve al usuario final a trav\u00e9s de ChatGPT.<\/li>\n<\/ol>\n<p>De hecho, un complemento puede realizar una solicitud a una API deportiva sin tener que eliminar el sitio web de deportes.  De hecho, cuando las solicitudes se realizan directamente desde el servidor que aloja la API del complemento, no hay restricciones para el agente de usuario. <\/p>\n<h2><strong>C\u00f3mo bloquear solicitudes del complemento ChatGPT<\/strong><\/h2>\n<p>En un proceso similar al bloqueo de los raspadores web de ChatGPT, puede bloquear solicitudes de complementos que declaran su presencia con la subcadena &#8220;ChatGPT-User&#8221; por agente de usuario.  Pero bloquear el agente de usuario tambi\u00e9n podr\u00eda bloquear a los usuarios de ChatGPT con el modo &#8220;navegaci\u00f3n&#8221; activado.  Y, contrariamente a lo que podr\u00eda indicar la documentaci\u00f3n de OpenAI, bloquear las solicitudes del &#8220;Usuario de ChatGPT&#8221; no garantiza que ChatGPT y sus complementos no puedan acceder a sus datos bajo diferentes tokens de agente de usuario. <\/p>\n<p>De hecho, los complementos de ChatGPT pueden realizar solicitudes directamente desde los servidores que alojan sus API utilizando cualquier agente de usuario e incluso navegadores automatizados (sin cabeza).  La detecci\u00f3n de complementos que no declaran su identidad en el agente de usuario requiere <a rel=\"nofollow noopener\" href=\"https:\/\/datadome.co\/bot-management-protection\/bot-detection-how-to-identify-bot-traffic-to-your-website\/\" target=\"_blank\">t\u00e9cnicas avanzadas de detecci\u00f3n de bots<\/a>.<\/p>\n<h2><strong>Determinar sus pr\u00f3ximos pasos<\/strong><\/h2>\n<p>La obtenci\u00f3n de conjuntos de datos de alta calidad de contenido generado por humanos seguir\u00e1 siendo de vital importancia para los LLM.  A largo plazo, empresas como OpenAI (financiada parcialmente por Microsoft) y Google pueden verse tentadas a utilizar Bingbots y Googlebots para crear conjuntos de datos para capacitar a sus LLM.  Eso har\u00eda m\u00e1s dif\u00edcil para los sitios web simplemente optar por no recopilar sus datos, ya que la mayor\u00eda de las empresas en l\u00ednea dependen en gran medida de Bing y Google para indexar su contenido y dirigir el tr\u00e1fico a su sitio. <\/p>\n<p>Los sitios web con datos valiosos querr\u00e1n buscar formas de monetizar el uso de sus datos u optar por no participar en el entrenamiento del modelo de IA para evitar perder tr\u00e1fico web e ingresos publicitarios debido a ChatGPT y sus complementos.  Si desea excluirse, necesitar\u00e1 t\u00e9cnicas avanzadas de detecci\u00f3n de bots, como huellas dactilares, detecci\u00f3n de proxy y an\u00e1lisis de comportamiento, para detener los bots antes de que puedan acceder a sus datos. <\/p>\n<p>Las soluciones avanzadas para la protecci\u00f3n contra fraudes y bots aprovechan la inteligencia artificial y el aprendizaje autom\u00e1tico (ML) para detectar y detener bots desconocidos desde la primera solicitud, manteniendo su contenido a salvo de raspadores de LLM, complementos desconocidos y otros. <a rel=\"nofollow noopener\" href=\"https:\/\/datadome.co\/threat-research\/how-bots-are-evolving-in-2022-top-threats\/\" target=\"_blank\">evolucionando r\u00e1pidamente<\/a> Tecnolog\u00edas de IA.<\/p>\n<p><b>Nota:<\/b> <i>Este art\u00edculo est\u00e1 escrito y aportado por Antoine Vastel, PhD, jefe de investigaci\u00f3n de DataDome.<\/i><\/p>\n<p><noscript><br \/>\n<img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/teknomers.com\/es\/wp-content\/uploads\/2023\/08\/Como-evitar-que-ChatGPT-robe-su-contenido-y-trafico.gif\" height=\"1\" width=\"1\" style=\"display:none;\" alt=\"\"\/><br \/>\n<\/noscript><\/p>\n<p><\/p>\n<div class=\"cf note-b\">\u00bfEncontr\u00f3 interesante este art\u00edculo?  Siga con nosotros <a rel=\"nofollow noopener\" href=\"https:\/\/twitter.com\/thehackersnews\" target=\"_blank\">Gorjeo <i class=\"icon-font icon-twitter\">\uf099<\/i><\/a>  y <a rel=\"nofollow noopener\" href=\"https:\/\/www.linkedin.com\/company\/thehackernews\/\" target=\"_blank\">LinkedIn<\/a> para leer m\u00e1s contenido exclusivo que publicamos.<\/div>\n<\/div>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><br \/>\n<br \/><br \/>\n<br \/><a href=\"https:\/\/thehackernews.com\/2023\/08\/how-to-prevent-chatgpt-from-stealing.html\" rel=\"nofollow noopener\" target=\"_blank\">ttn-es-57<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>ChatGPT y modelos de lenguaje grande (LLM) similares han agregado mayor complejidad al panorama de amenazas en l\u00ednea<\/p>\n","protected":false},"author":1,"featured_media":928588,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[9],"tags":[4657,4656,4661,131369,440,4664,7274,5912,4662,4668,201033,4654,201031,4659,4653,4655,47135,4666,4665,201032,6163,4660],"class_list":["post-928587","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia","tag-actualizaciones-ciberneticas","tag-actualizaciones-de-seguridad-cibernetica","tag-ataques-ciberneticos","tag-chatgpt","tag-como","tag-como-hackear","tag-contenido","tag-evitar","tag-filtracion-de-datos","tag-la-seguridad-informatica","tag-las-noticias-de-los-piratas-informaticos","tag-noticias-ciberneticas","tag-noticias-de-piratas-informaticos","tag-noticias-de-pirateria","tag-noticias-de-seguridad-cibernetica","tag-noticias-de-seguridad-cibernetica-hoy","tag-robe","tag-seguridad-de-informacion","tag-seguridad-de-la-red","tag-software-malicioso-ransomware","tag-trafico","tag-vulnerabilidad-de-software"],"_links":{"self":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/928587","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/comments?post=928587"}],"version-history":[{"count":0,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/posts\/928587\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media\/928588"}],"wp:attachment":[{"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/media?parent=928587"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/categories?post=928587"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/teknomers.com\/es\/wp-json\/wp\/v2\/tags?post=928587"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}