
Un pequeño laboratorio chino de inteligencia artificial sorprendió al mundo esta semana al revelar la receta técnica de su modelo de vanguardia, convirtiendo a su solitario líder en un héroe nacional que ha desafiado los intentos de Estados Unidos de detener las ambiciones de alta tecnología de China.
DeepSeek, fundada por el administrador de fondos de cobertura Liang Wenfeng, lanzó su modelo R1 el lunes, explicando en un documento detallado cómo construir un modelo de lenguaje grande con un presupuesto inicial que pueda aprender y mejorar automáticamente sin supervisión humana.
Empresas estadounidenses, incluidas OpenAI y Google DeepMind, fueron pioneras en el desarrollo de modelos de razonamiento, un campo relativamente nuevo de investigación de IA que intenta hacer que los modelos coincidan con las capacidades cognitivas humanas. En diciembre, OpenAI, con sede en San Francisco, lanzó la versión completa de su modelo o1 pero mantuvo sus métodos en secreto.
El lanzamiento de DeepSeek R1 provocó un frenético debate en Silicon Valley sobre si las empresas estadounidenses de inteligencia artificial con mejores recursos, incluidas Meta y Anthropic, pueden defender su ventaja técnica.
Mientras tanto, Liang se ha convertido en un punto focal de orgullo nacional en casa. Esta semana, fue el único líder de IA seleccionado para asistir a una reunión publicitada de empresarios con el segundo líder más poderoso del país, Li Qiang. A los empresarios se les dijo que “concentraran sus esfuerzos para avanzar en tecnologías centrales clave”.
En 2021, Liang comenzó a comprar miles de unidades de procesamiento gráfico Nvidia para su proyecto paralelo de inteligencia artificial mientras administraba su fondo de comercio cuantitativo High-Flyer. Los expertos de la industria lo vieron como las acciones excéntricas de un multimillonario que buscaba un nuevo pasatiempo.
“Cuando lo conocimos, era un tipo muy nerd con un peinado terrible que hablaba de construir un clúster de 10.000 chips para entrenar sus propios modelos. No lo tomamos en serio”, dijo uno de los socios comerciales de Liang.
“No podía articular su visión más que decir: quiero construir esto, y será un cambio de juego. Pensamos que esto sólo era posible con gigantes como ByteDance y Alibaba”, añadió la persona.
El estatus de Liang como un outsider en el campo de la IA fue una fuente inesperada de fortaleza. En High-Flyer, amasó una fortuna utilizando inteligencia artificial y algoritmos para identificar patrones que podrían afectar los precios de las acciones. Su equipo se volvió experto en el uso de chips Nvidia para ganar dinero negociando acciones. En 2023, lanzó DeepSeek y anunció su intención de desarrollar IA a nivel humano.
“Liang creó un equipo de infraestructura excepcional que realmente entiende cómo funcionan los chips”, dijo un fundador de una empresa rival LLM. “Se llevó a sus mejores personas del fondo de cobertura a DeepSeek”.
Después de que Washington prohibiera a Nvidia exportar sus chips más potentes a China, las empresas locales de inteligencia artificial se vieron obligadas a encontrar formas innovadoras de maximizar la potencia informática de un número limitado de chips locales, un problema que el equipo de Liang ya sabía cómo resolver.
“Los ingenieros de DeepSeek saben cómo liberar el potencial de estas GPU, incluso si no son de última generación”, dijo un investigador de IA cercano a la empresa.
Los conocedores de la industria dicen que el enfoque singular de DeepSeek en la investigación lo convierte en un competidor peligroso porque está dispuesto a compartir sus avances en lugar de protegerlos para obtener ganancias comerciales. DeepSeek no ha recaudado dinero de fondos externos ni ha tomado medidas significativas para monetizar sus modelos.
“DeepSeek funciona como los primeros días de DeepMind”, dijo un inversor en IA en Beijing. “Se centra exclusivamente en la investigación y la ingeniería”.
Liang, que participa personalmente en la investigación de DeepSeek, utiliza las ganancias de sus operaciones con fondos de cobertura para pagar los mejores salarios a los mejores talentos de IA. Junto con ByteDance, propietario de TikTok, DeepSeek es conocido por ofrecer la remuneración más alta disponible a los ingenieros de inteligencia artificial en China, con personal basado en oficinas en Hangzhou y Beijing.
“Las oficinas de DeepSeek parecen un campus universitario para investigadores serios”, afirmó el socio comercial. “El equipo cree en la visión de Liang: mostrar al mundo que los chinos pueden ser creativos y construir algo desde cero”.
DeepSeek y High-Flyer no respondieron a una solicitud de comentarios.
Liang ha descrito a DeepSeek como una empresa exclusivamente “local”, dotada de doctores de las mejores escuelas chinas y de las universidades de Pekín, Tsinghua y Beihang, en lugar de expertos de instituciones estadounidenses.
En una entrevista con la prensa nacional el año pasado, dijo que su equipo central “no tenía gente que regresara del extranjero. Todos son locales. . . Tenemos que desarrollar nosotros mismos los mejores talentos”. La identidad de DeepSeek como una empresa LLM puramente china le ha ganado aplausos en casa.
DeepSeek afirmó que utilizó sólo 2.048 Nvidia H800 y 5,6 millones de dólares para entrenar un modelo con 671.000 millones de parámetros, una fracción de lo que OpenAI y Google gastaron para entrenar modelos de tamaño comparable.
Ritwik Gupta, investigador de políticas de IA en la Universidad de California, Berkeley, dijo que los recientes lanzamientos de modelos de DeepSeek demuestran que “no hay obstáculos cuando se trata de capacidades de IA”.
“La primera persona que entrene modelos tiene que gastar muchos recursos para llegar allí”, dijo. “Pero el segundo actor puede llegar más barato y más rápido”.
Gupta añadió que China tenía una reserva de ingenieros de sistemas mucho mayor que Estados Unidos y que saben cómo aprovechar al máximo los recursos informáticos para entrenar y ejecutar modelos de forma más económica.
Los expertos de la industria dicen que, aunque DeepSeek ha mostrado resultados impresionantes con recursos limitados, sigue siendo una cuestión abierta si podrá seguir siendo competitivo a medida que evoluciona la industria.
Los retornos de High-Flyer, su gran patrocinador, se quedaron atrás en 2024, lo que una persona cercana a Liang atribuyó a que la atención del fundador se centró principalmente en DeepSeek.
Sus rivales estadounidenses no se quedan quietos. Están construyendo mega “clústeres” de chips Blackwell de próxima generación de Nvidia, creando la potencia informática que amenaza con crear una vez más una brecha de rendimiento con sus rivales chinos.
Esta semana, OpenAI dijo que estaba creando una empresa conjunta con SoftBank de Japón, denominada Stargate, con planes de gastar al menos 100 mil millones de dólares en infraestructura de inteligencia artificial en Estados Unidos. xAI de Elon Musk está ampliando enormemente su supercomputadora Colossus para contener más de 1 millón de GPU para ayudar a entrenar sus modelos de IA Grok.
“DeepSeek tiene uno de los grupos de computación avanzada más grandes de China”, dijo el socio comercial de Liang. “Tienen suficiente capacidad por ahora, pero no por mucho más”.
Información adicional de Wenjie Ding en Beijing


