Cómo evitar que ChatGPT robe su contenido y tráfico


ChatGPT y modelos de lenguaje grande (LLM) similares han agregado mayor complejidad al panorama de amenazas en línea en constante crecimiento. Los ciberdelincuentes ya no necesitan habilidades avanzadas de codificación para ejecutar fraudes y otros ataques dañinos contra empresas y clientes en línea, gracias a los bots como servicio, los servidores proxy residenciales, las granjas CAPTCHA y otras herramientas de fácil acceso.

Ahora, la última tecnología que perjudica los resultados de las empresas es ChatGPT.

ChatGPT, OpenAI y otros LLM no solo han planteado cuestiones éticas al entrenando a sus modelos en datos extraídos de Internet. Los LLM están impactando negativamente el tráfico web de las empresas, lo que puede ser extremadamente perjudicial para las empresas.

3 riesgos que presentan los LLM, ChatGPT y los complementos ChatGPT

Entre las amenazas que ChatGPT y los complementos ChatGPT pueden plantear contra las empresas en línea, hay tres riesgos clave en los que nos centraremos:

  1. Robo de contenido (o volver a publicar datos sin el permiso de la fuente original) puede perjudicar la autoridad, las clasificaciones SEO y el valor percibido de su contenido original.
  2. Trafico reducido a su sitio web o aplicación se vuelve problemático, ya que los usuarios que obtienen respuestas directamente a través de ChatGPT y sus complementos ya no necesitan encontrar o visitar sus páginas.
  3. Violaciones de datos, o incluso la amplia distribución accidental de datos confidenciales, son cada vez más probables a cada segundo. No todos los datos «de cara al público» están destinados a ser redistribuidos o compartidos fuera del contexto original, pero los raspadores no conocen la diferencia. Los resultados pueden incluir cualquier cosa, desde una pérdida de ventaja competitiva hasta daños graves a la reputación de su marca.

Dependiendo de su modelo de negocio, su empresa debería considerar formas de optar por no utilizar sus datos para capacitar a los LLM.

Las 3 industrias más afectadas

Las industrias con mayor riesgo de sufrir daños provocados por ChatGPT son aquellas en las que la privacidad de los datos es una de las principales preocupaciones, el contenido único y la propiedad intelectual son diferenciadores clave, y los anuncios, los ojos y los visitantes únicos son una fuente importante de ingresos. Estas industrias incluyen:

  1. Comercio electrónico: Las descripciones de productos y los modelos de precios pueden ser diferenciadores clave.
  2. Transmisión, medios y publicaciones: Todo sobre brindar a la audiencia contenido único, creativo y entretenido.
  3. Anuncios clasificados: Los ingresos por publicidad de pago por clic (PPC) pueden verse gravemente afectados por una disminución en el tráfico del sitio web (así como por otros problemas de bots como fraude de clics o análisis sesgados del sitio debido a raspadores).
PRÓXIMO SEMINARIO WEB

Proteja su marca: defendiéndose contra el raspado de contenido de ChatGPT

¿Le preocupa que ChatGPT elimine su contenido? Aprenda a burlar a los robots de IA, defender su contenido y proteger su tráfico web.

Únase a la sesión

Cómo ChatGPT obtiene datos de entrenamiento

De acuerdo a un trabajo de investigación publicado por OpenAI, ChatGPT3 fue entrenado en varios conjuntos de datos:

  • rastreo común
  • WebText2
  • Libros1 y Libros2
  • Wikipedia

La mayor cantidad de datos de entrenamiento proviene de rastreo común, que proporciona acceso a información web a través de un repositorio abierto de datos de rastreo web. El robot rastreador Common Crawl, también conocido como CCBotaprovecha Apache Nutch para permitir a los desarrolladores crear scrapers a gran escala.

La versión más actual de CCBot se rastrea desde Amazon AWS y se identifica con un agente de usuario de ‘CCBot/2.0’. Pero las empresas que quieran permitir CCBot no deberían confiar únicamente en el agente de usuario para identificarlo, porque muchas Los robots malos falsifican a sus agentes de usuario. para disfrazarse de buenos bots y evitar ser bloqueados.

Para permitir CCBot en su sitio web, utilice atributos como rangos de IP o DNS inverso. A bloquear ChatGPTsu sitio web debería, como mínimo, bloquear el tráfico de CCBot.

3 formas de bloquear CCBot

  1. Robots.txt: Dado que CCBot respeta los archivos robots.txt, puedes bloquearlo con las siguientes líneas de código:
  2. Agente de usuario: CCBot
    No permitir: /

  3. Bloqueo del agente de usuario de CCBot: Puede bloquear de forma segura un bot no deseado a través del agente de usuario. (No es que, por el contrario, permitiendo El tráfico de bots a través del agente de usuario puede ser inseguro y los atacantes pueden abusar fácilmente de él).
  4. Software de gestión de robots: Ya sea para ChatGPT o una base de datos de la web oscura, la mejor manera de evitar que los bots rastreen sus sitios web, aplicaciones y API es con protección especializada contra bots que utiliza el aprendizaje automático para mantenerse al día con la evolución de las tácticas de amenazas en tiempo real.

Los raspadores siempre pueden encontrar soluciones

uso de LLM robots raspadores para recopilar datos de entrenamiento. Si bien bloquear CCBot podría ser eficaz para bloquear los raspadores ChatGPT en la actualidad, no se sabe qué deparará el futuro para los raspadores LLM. En el futuro, si demasiados sitios web bloquean el acceso de OpenAI (por ejemplo) a su contenido, los desarrolladores podrían decidir dejar de respetar el archivo robots.txt y dejar de declarar su identidad de rastreador en el agente de usuario.

Otra posibilidad es que OpenAI podría utilizar su asociación con Microsoft para acceder a los datos del scraper de Microsoft Bing, lo que haría la situación más desafiante para los propietarios de sitios web. Los bots de Bing se identifican como Bingbot, pero bloquearlos podría causar problemas al impedir que su sitio sea indexado en el motor de búsqueda de Bing, lo que resultaría en menos visitantes humanos.

Podría enfrentar problemas similares al bloquear LLM Bard de Google (competidor de ChatGPT). Google es vago sobre el origen y la recopilación de los datos públicos utilizados para entrenar a Bard, pero es posible que Bard esté, o esté, entrenado con datos recopilados por los raspadores de Googlebot. Al igual que con Bingbot, bloquear el robot de Google probablemente no sería prudente, ya que afectaría la forma en que se indexa su sitio web y la forma en que el motor de búsqueda de Google dirige el tráfico a su sitio. El resultado podría suponer una importante caída de visitantes.

Uso de complementos para acceder a datos en vivo

Una de las principales limitaciones de modelos como ChatGPT es la falta de acceso a datos en vivo. Dado que se capacitó con un conjunto de datos que finaliza en 2021, no puede proporcionar la información más relevante y actualizada. Ahí es donde entran los complementos.

Complementos se utilizan para conectar LLM como ChatGPT a herramientas externas y permitir que los LLM accedan a datos externos disponibles en línea, que pueden incluir datos privados y noticias en tiempo real. Los complementos también permiten a los usuarios completar acciones en línea (por ejemplo, reservar un vuelo o pedir comida) a través de llamadas API.

Algunas empresas están desarrollando sus propios complementos para proporcionar una nueva forma para que los usuarios interactúen con su contenido/servicios a través de ChatGPT. Pero, dependiendo de su industria, permitir que los usuarios interactúen con su sitio web a través de complementos ChatGPT de terceros puede significar que sus usuarios vean menos anuncios, así como un menor tráfico a su sitio web.

También puede notar que los usuarios están menos dispuestos a pagar por sus funciones premium una vez que sus funciones puedan replicarse a través de complementos ChatGPT de terceros. Por ejemplo, un cliente web no oficial que interactúe con su sitio podría ofrecer funciones premium a través de su interfaz de usuario.

Cómo identificar solicitudes de complemento ChatGPT

La documentación de OpenAI indica que las solicitudes con un encabezado HTTP de agente de usuario específico (con token: «ChatGPT-User») provienen de complementos de ChatGPT. Pero la documentación no establece que el agente de usuario divulgado sea el solo agente de usuario que pueden utilizar los complementos al realizar solicitudes HTTP.

Por lo tanto, a medida que los complementos de ChatGPT interactúan con API de terceros, las API pueden realizar cualquier tipo de solicitudes HTTP desde su propia infraestructura. El siguiente diagrama muestra lo que sucede cuando se utiliza un «complemento de deportes en vivo» ficticio con ChatGPT para obtener una actualización sobre un evento deportivo.

Complementos de ChatGPT
  1. ChatGPT activa el complemento Live Sport y realiza una solicitud a los puntos finales de la API según los parámetros del mensaje del usuario.
  2. El complemento realiza una solicitud HTTP para rastrear un sitio web de deportes y obtener la información más reciente sobre el evento.
  3. Luego, la información se devuelve al usuario final a través de ChatGPT.

De hecho, un complemento puede realizar una solicitud a una API deportiva sin tener que eliminar el sitio web de deportes. De hecho, cuando las solicitudes se realizan directamente desde el servidor que aloja la API del complemento, no hay restricciones para el agente de usuario.

Cómo bloquear solicitudes del complemento ChatGPT

En un proceso similar al bloqueo de los raspadores web de ChatGPT, puede bloquear solicitudes de complementos que declaran su presencia con la subcadena «ChatGPT-User» por agente de usuario. Pero bloquear el agente de usuario también podría bloquear a los usuarios de ChatGPT con el modo «navegación» activado. Y, contrariamente a lo que podría indicar la documentación de OpenAI, bloquear las solicitudes del «Usuario de ChatGPT» no garantiza que ChatGPT y sus complementos no puedan acceder a sus datos bajo diferentes tokens de agente de usuario.

De hecho, los complementos de ChatGPT pueden realizar solicitudes directamente desde los servidores que alojan sus API utilizando cualquier agente de usuario e incluso navegadores automatizados (sin cabeza). La detección de complementos que no declaran su identidad en el agente de usuario requiere técnicas avanzadas de detección de bots.

Determinar sus próximos pasos

La obtención de conjuntos de datos de alta calidad de contenido generado por humanos seguirá siendo de vital importancia para los LLM. A largo plazo, empresas como OpenAI (financiada parcialmente por Microsoft) y Google pueden verse tentadas a utilizar Bingbots y Googlebots para crear conjuntos de datos para capacitar a sus LLM. Eso haría más difícil para los sitios web simplemente optar por no recopilar sus datos, ya que la mayoría de las empresas en línea dependen en gran medida de Bing y Google para indexar su contenido y dirigir el tráfico a su sitio.

Los sitios web con datos valiosos querrán buscar formas de monetizar el uso de sus datos u optar por no participar en el entrenamiento del modelo de IA para evitar perder tráfico web e ingresos publicitarios debido a ChatGPT y sus complementos. Si desea excluirse, necesitará técnicas avanzadas de detección de bots, como huellas dactilares, detección de proxy y análisis de comportamiento, para detener los bots antes de que puedan acceder a sus datos.

Las soluciones avanzadas para la protección contra fraudes y bots aprovechan la inteligencia artificial y el aprendizaje automático (ML) para detectar y detener bots desconocidos desde la primera solicitud, manteniendo su contenido a salvo de raspadores de LLM, complementos desconocidos y otros. evolucionando rápidamente Tecnologías de IA.

Nota: Este artículo está escrito y aportado por Antoine Vastel, PhD, jefe de investigación de DataDome.

¿Encontró interesante este artículo? Siga con nosotros Gorjeo y LinkedIn para leer más contenido exclusivo que publicamos.





ttn-es-57