
Los retadores de Nvidia están aprovechando una nueva oportunidad para descifrar su dominio de las chips de inteligencia artificiales después de que Deepseek de Startup china aceleró un cambio en los requisitos informáticos de la IA.
Deepseek’s R1 y otros llamados modelos de “razonamiento”, como el O3 de OpenAI y Claude 3.7 de Anthrope, consumen más recursos informáticos que los sistemas de IA anteriores en el momento en que un usuario hace su solicitud, un proceso llamado “inferencia”.
Eso ha volcado el enfoque de la demanda de computación de IA, que hasta hace poco se centró en la capacitación o en la creación de un modelo. Se espera que la inferencia se convierta en una mayor parte de las necesidades de la tecnología a medida que la demanda crece entre individuos y empresas para aplicaciones que van más allá de los chatbots populares de hoy, como ChatGPT o Xai’s Grok.
Es aquí donde los competidores de Nvidia, que van desde nuevas empresas de chips de IA, como cerebras y groq hasta procesadores de aceleradores personalizados de grandes compañías tecnológicas, incluidas Google, Amazon, Microsoft y Meta, están centrando sus esfuerzos para interrumpir la compañía de semiconductores más valiosa del mundo.
“La capacitación hace que la IA y la inferencia usen IA”, dijo Andrew Feldman, director ejecutivo de Cerebras. “Y el uso de la IA se ha ido por el techo. . . La oportunidad en este momento de hacer un chip que sea mucho mejor para la inferencia que para el entrenamiento es más grande de lo que ha sido anteriormente “.
Nvidia domina el mercado de grandes grupos informáticos como la instalación XAI de Elon Musk en Memphis o el proyecto Stargate de OpenAi con SoftBank. Pero sus inversores están buscando la seguridad de que puede continuar superando a sus rivales en centros de datos mucho más pequeños en construcción que se centrarán en la inferencia.
Vipul Ved Prakash, director ejecutivo y cofundador de Together AI, un proveedor de la nube centrado en la IA que fue valorado en $ 3.3 mil millones el mes pasado en una ronda dirigida por el Catalyst General, dijo que la inferencia fue un “gran enfoque” para su negocio. “Creo que ejecutar la inferencia a escala será la mayor carga de trabajo en Internet en algún momento”, dijo.
Los analistas de Morgan Stanley han estimado que más del 75 por ciento de la demanda de potencia y computación de centros de datos en los Estados Unidos será por inferencia en los próximos años, aunque advirtieron sobre “incertidumbre significativa” sobre cómo se desarrollará la transición.
Aún así, eso significa que cientos de miles de millones de dólares en inversiones podrían fluir hacia instalaciones de inferencia en los próximos años, si el uso de IA continúa creciendo a su ritmo actual.
Los analistas de Barclays estiman el gasto de capital por inferencia en “Frontier AI”, que se refieren a los sistemas más grandes y avanzados, excederán el de la capacitación en los próximos dos años, saltando de $ 122.6 mil millones en 2025 a $ 208.2 mil millones en 2026.
Si bien Barclays predice que Nvidia tendrá “cuota de mercado esencialmente al 100 por ciento” en la capacitación de IA fronteriza, solo servirá al 50 por ciento de la informática de inferencia “a largo plazo”. Eso deja a los rivales de la compañía con casi $ 200 mil millones en gastos de chips para jugar para 2028.
“Hay un gran tirón hacia mejor, más rápido y más eficiente [chips]”, Dijo Walter Goodwin, fundador de la nueva empresa de chips con sede en el Reino Unido Fractup. Los proveedores de computación en la nube están ansiosos por “algo que corta la sobredependencia” en Nvidia, agregó.
El presidente ejecutivo de NVIDIA, Jensen Huang, insistió en que los chips de su compañía son tan poderosos para la inferencia como para capacitar, ya que mira una nueva oportunidad de mercado gigante.
Los últimos chips Blackwell de la compañía estadounidense fueron diseñados para manejar mejor la inferencia y muchos de los primeros clientes de esos productos los están utilizando para servir, en lugar de entrenar, sistemas de inteligencia artificial. La popularidad de su software, basada en su arquitectura CUDA patentada, entre los desarrolladores de IA también presenta una barrera formidable para los competidores.
“La cantidad de cómputo de inferencia necesaria ya es 100 veces más” que cuando comenzó los modelos de idiomas grandes, dijo Huang en la llamada de ganancias del mes pasado. “Y ese es solo el comienzo”.
El costo de servir respuestas de LLMS ha caído rápidamente en los últimos dos años, impulsado por una combinación de chips más potentes, sistemas de IA más eficientes y una intensa competencia entre desarrolladores de IA como Google, OpenAi y Anthrope.
“El costo de usar un nivel dado de AI cae alrededor de 10 veces cada 12 meses, y los precios más bajos conducen a mucho más uso”, dijo Sam Altman, director ejecutivo de OpenAi, en una publicación de blog el mes pasado.
Los modelos V3 y R1 de Deepseek, que desencadenaron un pánico en el mercado de valores en enero en gran parte debido a lo que se percibió como costos de capacitación más bajos, han ayudado a reducir aún más los costos de inferencia, gracias a las innovaciones arquitectónicas y la eficiencia de codificación de la nueva empresa china.
Al mismo tiempo, el tipo de procesamiento requerido por las tareas de inferencia, que pueden incluir requisitos de memoria mucho mayores para responder consultas más largas y más complejas, abrió la puerta a alternativas a las unidades de procesamiento de gráficos de NVIDIA, cuyas fortalezas radican en el manejo de volúmenes muy grandes de cálculos similares.
“El rendimiento de la inferencia en su hardware es una función de lo rápido que puede [move data] hacia y desde la memoria “, dijo Feldman de Cerebras, cuyos chips han sido utilizados por la empresa francesa de IA Mistral para acelerar el rendimiento de su chatbot, le chat.
La velocidad es vital para involucrar a los usuarios, dijo Feldman. “Una de las cosas que google [search] Mostrado hace 25 años es que incluso microsegundos [of delay] Reduce la atención del espectador ”, dijo. “Estamos produciendo respuestas para LE Chat a veces un segundo [OpenAI’s] O1 habría tomado 40. ”
Nvidia mantiene que sus chips son tan poderosos para la inferencia como para el entrenamiento, lo que señala 200 veces mejorado en su rendimiento de inferencia en los últimos dos años. Dice que cientos de millones de usuarios acceden a los productos AI a través de millones de GPU hoy.
“Nuestra arquitectura es fungible y fácil de usar de todas esas formas diferentes”, dijo Huang el mes pasado, tanto para construir modelos grandes como para servir aplicaciones de IA de nuevas maneras.
Prakash, cuya compañía cuenta con Nvidia como inversor, dijo que juntas usan los mismos chips Nvidia para inferencia y capacitación hoy, lo cual es “bastante útil”.
A diferencia de las GPU de “propósito general” de NVIDIA, los aceleradores de inferencia funcionan mejor cuando se ajustan a un tipo particular de modelo de IA. En una industria de rápido movimiento, eso podría ser un problema para las nuevas empresas de chips que se apuestan por la arquitectura de IA equivocada.
“Creo que la única ventaja de la computación de propósito general es que a medida que las arquitecturas modelo están cambiando, solo tiene más flexibilidad”, dijo Prakash, al tiempo que agrega: “Mi sentido es que habrá una compleja combinación de silicio en los próximos años”.
Informes adicionales de Michael Acton en San Francisco


