Puede entrenar la inteligencia artificial para que reconozca rostros, por ejemplo, pero antes de que eso tenga éxito, la IA primero debe tomar millones de pasos de práctica. Una nueva forma de entrenar la IA ahorra tiempo, energía y potencia informática.
La inteligencia artificial (IA) está mejorando en la realización de tareas complejas, pero entrenar la IA requiere una enorme cantidad de poder de cómputo. Una técnica más eficiente podría reducir a la mitad el tiempo, la energía y la potencia informática necesaria.
La inteligencia artificial a menudo utiliza un método que aprendizaje profundo se llama. La IA consiste en una red de ‘células nerviosas’ artificiales. Estos están vinculados entre sí por un código de computadora, que toma entradas, les asigna un cierto peso y luego devuelve una salida alterada. De esta forma, la red se parece a una versión aproximada de nuestro cerebro, en la que las células nerviosas están conectadas entre sí.
LEA TAMBIÉN
bestias brillantes
Al asignar diferentes pesos a la entrada, la red puede aprender de manera lenta pero segura una determinada tarea, como reconocer rostros o digitalizar textos escritos a mano. Antes de que eso tenga éxito, la red tiene que cambiar los pesos asignados miles o millones de veces.
De ida y vuelta
Para entrenar un modelo, los investigadores envían datos a la red, luego de lo cual evalúan la calidad de la salida. Luego calculan un “gradiente”: un valor que dicta cómo deben cambiar los pesos para mejorar el resultado. Durante este proceso, los datos se mueven constantemente de un lado a otro a través de la red, estableciendo lentamente el gradiente.
Atılım Guneş Baydin, un investigador de IA de la Universidad de Oxford, ahora ha simplificado ese proceso con sus colegas. En lugar de tener que realizar el proceso en dos pasos, con los datos yendo y viniendo, ahora se puede realizar en un paso† El gradiente se establece con tanta precisión en el primer paso que ya no es necesario un segundo cálculo.
En teoría, esto podría reducir a la mitad el tiempo de desarrollo de la IA. El equipo comparó su nuevo modelo de IA con un modelo “anticuado” y vio que su IA realizaba sus tareas igual de bien.
truco matemático
Calcular el gradiente en un solo paso es un ‘truco matemático simple’, dice andres corbett† Es informático en la Universidad de Exeter. Ese simple truco podría resolver potencialmente uno de los mayores problemas para los investigadores de IA: el poder de cómputo cada vez mayor requerido.
Según Corbett, esto podría proporcionar una forma más económica de entrenar la IA. ‘Es muy importante resolver el problema de [gebrek aan rekenkracht] para resolver, porque esa es la embotellamiento de algoritmos de IA.’
súper computadoras
Los sistemas de IA modernos utilizan miles de millones de datos. Lleva semanas o meses entrenar las supercomputadoras gigantes necesarias.
Una de las redes neuronales más grandes en uso es la Generación de lenguaje natural Megatron-Turingmodelo, que contiene 530 mil millones de datos. Está entrenado con la supercomputadora Selene de Nvidia, que consta de 560 potentes servidores y 4480 tarjetas gráficas. Cada una de esas tarjetas cuesta miles de euros. A pesar del enorme poder de cómputo de la máquina, lleva más de un mes entrenar este modelo.
reducir a la mitad
En el mejor de los casos, la potencia informática ahora se ha reducido a la mitad, pero eso está lejos de ser seguro, dice Güneş Baydin. La eficiencia del método solo quedará clara cuando otros investigadores lo utilicen para todo tipo de tareas diferentes de IA. Para algunas aplicaciones puede funcionar mejor que otras.
“Puede realizar un solo cálculo de optimización más rápido con este algoritmo, pero eso no significa necesariamente que funcione el doble de rápido a gran escala. Hay más factores involucrados en esto’, dice. ‘En algunos casos, puede funcionar peor que el método anterior y solo necesita más cálculos para lograr la misma calidad de entrenamiento. Y si eso sucede, es posible que el nuevo método no pueda competir con el antiguo.’