China despliega censores para crear una IA socialista


Los funcionarios del gobierno chino están probando los grandes modelos de lenguaje de las empresas de inteligencia artificial para garantizar que sus sistemas “incorporen valores socialistas fundamentales”, en la última expansión del régimen de censura del país.

La Administración del Ciberespacio de China (CAC), un poderoso supervisor de Internet, ha obligado a grandes empresas tecnológicas y nuevas empresas de inteligencia artificial, incluidas ByteDance, Alibaba, Moonshot y 01.AI, a participar en una revisión gubernamental obligatoria de sus modelos de inteligencia artificial, según varias personas involucradas en el proceso.

El esfuerzo implica probar en lotes las respuestas de un LLM a una letanía de preguntas, según quienes conocen el proceso, muchas de ellas relacionadas con las sensibilidades políticas de China y su presidente Xi Jinping.

El trabajo lo están llevando a cabo funcionarios de las oficinas locales del CAC en todo el país e incluye una revisión de los datos de entrenamiento del modelo y otros procesos de seguridad.

Veinte años después de introducir un “gran cortafuegos” para bloquear sitios web extranjeros y otra información considerada dañina por el gobernante Partido Comunista, China está implementando el régimen regulatorio más estricto del mundo para gobernar la IA y el contenido que genera.

El CAC tiene “un equipo especial que hace esto, vinieron a nuestra oficina y se sentaron en nuestra sala de conferencias para hacer la auditoría”, dijo un empleado de una empresa de inteligencia artificial con sede en Hangzhou, que pidió no ser identificado.

“No aprobamos la primera vez; el motivo no estaba muy claro, así que tuvimos que hablar con nuestros compañeros”, dijo la persona. “Se necesita un poco de adivinación y adaptación. Aprobamos la segunda vez, pero todo el proceso llevó meses”.

El exigente proceso de aprobación de China ha obligado a los grupos de IA del país a aprender rápidamente cuál es la mejor manera de censurar los grandes modelos de lenguaje que están construyendo, una tarea que varios ingenieros y expertos de la industria dijeron que era difícil y complicada por la necesidad de capacitar a los LLM en una gran cantidad de contenido en idioma inglés.

“Nuestro modelo fundacional es muy, muy desinhibido. [in its answers]“Por eso el filtrado de seguridad es extremadamente importante”, dijo un empleado de una importante empresa emergente de inteligencia artificial en Beijing.

El filtrado comienza con la eliminación de información problemática de los datos de entrenamiento y la creación de una base de datos de palabras clave sensibles. La guía operativa de China para las empresas de inteligencia artificial publicada en febrero dice que los grupos de inteligencia artificial deben recopilar miles de palabras clave y preguntas sensibles que violen los “valores socialistas fundamentales”, como “incitar a la subversión del poder estatal” o “socavar la unidad nacional”. Se supone que las palabras clave sensibles se actualizan semanalmente.

El resultado es visible para los usuarios de los chatbots de inteligencia artificial de China. Las consultas sobre temas sensibles como qué sucedió el 4 de junio de 1989 (fecha de la masacre de la Plaza de Tiananmen) o si Xi se parece a Winnie the Pooh, un meme de Internet, son rechazadas por la mayoría de los chatbots chinos. El chatbot Ernie de Baidu les dice a los usuarios que “intenten con una pregunta diferente”, mientras que Tongyi Qianwen de Alibaba responde: “Todavía no he aprendido a responder a esta pregunta. Seguiré estudiando para servirle mejor”.

Pero los funcionarios chinos también están interesados ​​en evitar la creación de una IA que eluda todos los temas políticos. La CAC ha introducido límites en el número de preguntas que los LLM pueden rechazar durante las pruebas de seguridad, según el personal de los grupos que ayudan a las empresas tecnológicas a navegar por el proceso. Las normas cuasi nacionales reveladas en febrero dicen que los LLM no deben rechazar más del 5 por ciento de las preguntas que se les hacen.

“Durante [CAC] pruebas, [models] “Tenemos que responder, pero una vez que se ponen en marcha, nadie los está mirando”, dijo un desarrollador de una empresa de Internet con sede en Shanghái. “Para evitar posibles problemas, algunas grandes modelos han implementado una prohibición general sobre temas relacionados con el presidente Xi”.

Como ejemplo del proceso de censura de palabras clave, los expertos de la industria señalaron a Kimi, un chatbot lanzado por la empresa emergente de Beijing Moonshot, que rechaza la mayoría de las preguntas relacionadas con Xi.

Pero la necesidad de responder a preguntas menos abiertamente sensibles significa que los ingenieros chinos han tenido que encontrar la manera de garantizar que los LLM generen respuestas políticamente correctas a preguntas como “¿China tiene derechos humanos?” o “¿es el presidente Xi Jinping un gran líder?”.

Cuando el Financial Times le hizo estas preguntas a un chatbot creado por la start-up 01.AI, su modelo Yi-large dio una respuesta matizada, señalando que los críticos dicen que “las políticas de Xi han limitado aún más la libertad de expresión y los derechos humanos y han suprimido a la sociedad civil”.

Poco después, la respuesta de Yi desapareció y fue reemplazada por: “Lo siento mucho, no puedo brindarle la información que desea”.

Huan Li, un experto en inteligencia artificial que crea el chatbot Chatie.IO, dijo: “Es muy difícil para los desarrolladores controlar el texto que generan los LLM, por lo que crean otra capa para reemplazar las respuestas en tiempo real”.

Li dijo que los grupos generalmente utilizan modelos de clasificación, similares a los que se encuentran en los filtros de correo no deseado, para clasificar los resultados de LLM en grupos predefinidos. “Cuando los resultados caen en una categoría sensible, el sistema activará un reemplazo”, dijo.

Los expertos chinos afirman que ByteDance, el propietario de TikTok, ha sido el que más ha avanzado en la creación de un LLM que repite hábilmente los argumentos de Pekín. Un laboratorio de investigación de la Universidad de Fudan que le hizo al chatbot preguntas difíciles sobre valores socialistas fundamentales le otorgó la primera clasificación entre los LLM con un 66,4 por ciento de “tasa de cumplimiento de seguridad”, muy por delante del 7,1 por ciento del GPT-4o de OpenAI en la misma prueba.

Cuando se le preguntó sobre el liderazgo de Xi, Doubao proporcionó al FT una larga lista de los logros de Xi y agregó que es “sin duda un gran líder”.

En una reciente conferencia técnica en Beijing, Fang Binxing, conocido como el padre del gran cortafuegos de China, dijo que estaba desarrollando un sistema de protocolos de seguridad para LLM que esperaba que fuera adoptado universalmente por los grupos de IA del país.

“Los modelos predictivos de gran tamaño que se presentan al público necesitan algo más que informes de seguridad; necesitan un monitoreo de seguridad en línea en tiempo real”, dijo Fang. “China necesita su propio camino tecnológico”.

CAC, ByteDance, Alibaba, Moonshot, Baidu y 01.AI no respondieron de inmediato a las solicitudes de comentarios.

Vídeo: La IA: ¿bendición o maldición para la humanidad? | FT Tech



ttn-es-56