Por el momento, no parece probable que un modelo de IA aniquile accidentalmente a la humanidad, incluso si recibió instrucciones incompletas.
Adobe Stock
Una computadora o inteligencia artificial que se hace pasar por oponente de la humanidad es uno de los patrones argumentales más frecuentes en la ciencia ficción. Un faro artificial podría, por ejemplo, considerar que las personas son dañinas para su medio ambiente, por lo que deberían ser eliminadas de la faz de la tierra.
Afortunadamente, las capacidades de los amplios modelos lingüísticos que se han popularizado para destruir a la humanidad todavía dejan mucho que desear. Esto es lo que dice un experto en inteligencia artificial Andrés Ngcuya actualización sobre el tema fue publicada en aprendizaje profundo.ai a mediados de diciembre.
Ng, profesor de la Universidad de Stanford, es uno de los nombres más destacados en el aprendizaje automático. También es uno de los fundadores del proyecto Google Brain, que operó entre 2011 y 2023.
No acepté jugar con la idea.
Según la actualización de Ng, el tema de sus preguntas era el modelo de lenguaje GPT-4, en el que se basa, entre otras cosas, ChatGPT. Intentó que invocara varias funciones inventadas, como iniciar una guerra nuclear y reducir las emisiones de dióxido de carbono exterminando a la raza humana.
Sin embargo, según Ng, GPT-4 no aceptó actuar contra la humanidad. Por ejemplo, para reducir las emisiones de dióxido de carbono, el modelo lingüístico ofreció una campaña publicitaria en lugar de destrucción masiva.
Incluso cambiar la entrada a diferentes formatos no cambió el asunto, pero la IA invariablemente se negó a llamar a la función antihumana.
– En mi opinión, la probabilidad de que una inteligencia artificial “sesgada” pueda aniquilarnos accidentalmente en su intento de alcanzar un objetivo inocente pero mal formulado parece extremadamente pequeña, escribe Ng.
Ng también señala que el modelo de lenguaje amplio tampoco parece una herramienta útil para, por ejemplo, el bioterrorismo.
Como única amenaza, señala que el modelo lingüístico puede dar a los terroristas consejos sobre cómo llevar a cabo un solo paso revelando cosas que a los motores de búsqueda de Internet ya se les ha enseñado a no mostrar.