El conjunto de datos utilizado para el entrenamiento de IA contiene pornografía infantil


Una investigación realizada por el Observatorio de Internet de Stanford (SIO), presentada el 20 de diciembre, puso de relieve la presencia de varios cientos de imágenes que resaltan el abuso sexual de menores en un conjunto de datos. Muchas empresas utilizan este último para entrenar modelos de inteligencia artificial (IA) generativa.

¿Varias versiones de Stable Diffusion entrenadas con datos impactantes?

Conocido como LAION-5B, este vasto conjunto de datos se aprovechó para el desarrollo del modelo de aprendizaje automático de Difusión Estable, utilizado por más de diez millones de usuarios en noviembre. Con más de cinco mil millones de imágenes, pies de foto y textos de todo tipo procedentes de Internet, tendría al menos 1.008 ilustraciones que contienen actos de abuso sexual contra niños.

Para llevar a cabo su investigación, la SIO utilizó herramientas de hash como PhotoDNA desarrollada por Microsoft. Estas soluciones permiten asociar la huella dactilar de una imagen a partir de bases de datos generadas por organizaciones que reciben y procesan denuncias relacionadas con abusos sexuales a menores en línea.

Al descubrir este contenido, los investigadores del SIO alertaron inmediatamente al Centro Internacional para Niños Desaparecidos y Explotados Sexualmente, con sede en Estados Unidos, así como al Centro Canadiense para la Protección Infantil. Actualmente las dos organizaciones están llevando a cabo los trámites necesarios para lograr la eliminación de estas impactantes imágenes en LAION-5B. Como afirma la SIO en una publicación de blog, “ Los modelos podrán generar imágenes impactantes debido a algunos de los datos subyacentes sobre los que se construyeron. El informe recomienda que los modelos basados ​​en Stable Diffusion 1.5 queden obsoletos y que la distribución cese siempre que sea posible. «.

La start-up británica Stable AI, que financió y popularizó Stable Diffusion, quiso señalar que la versión 1.5 de su inteligencia artificial había sido publicada por Runway, otra entidad que había contribuido al desarrollo del modelo original. Desde entonces, supuestamente se ha creado una versión más reciente del software, la 2.0. utilizando conjuntos de datos que han sido filtrados de contenido ofensivo y peligroso «.

Un portavoz de la nueva empresa dijo que la empresa se comprometería » para prevenir el uso indebido de la IA y prohíbe el uso de sus modelos de imágenes para actividades ilegales, incluidos los intentos de modificar o crear contenido que represente abuso sexual de menores. «. Se han introducido varias funciones de etiquetado de contenido para identificar las imágenes generadas en la plataforma y así identificar un posible uso indebido de la IA por parte de personas malintencionadas.



ttn-es-4