L'IA a bouleversé une vieille règle des serveurs : la mémoire ne veut plus vivre sur chaque machine.

## La Révolution de la Mémoire dans les Centres de Données

Pour beaucoup, la pénurie de mémoire peut sembler d’abord un problème lié à l’utilisation domestique, avec des modules de RAM devenus de plus en plus rares. Cependant, ce phénomène touche également les grandes entreprises technologiques qui cherchent à entraîner et déployer des modèles d’intelligence artificielle (IA) dans les centres de données. La demande croissante de mémoire remet en question une règle vieille de plusieurs décennies : chaque machine n’a pas besoin de dépendre uniquement de sa propre RAM.

### La Mémoire Change de Lieu

L’idée de base est de transférer la logique de la mémoire vers un modèle similaire à celui du stockage. Actuellement, un fichier peut résider sur un appareil, sur un autre ordinateur du réseau ou sur un système partagé accessible par plusieurs serveurs. La prochaine génération de serveurs pourrait adopter une approche similaire pour la RAM : conserver un petit volume local tout en s’appuyant sur des systèmes de mémoire centrale plus vastes. Ce concept a donné naissance à la notion de “memory godbox”, un grand cluster de mémoire non lié à une seule machine.

### L’Avènement du CXL

Le Compute Express Link (CXL) a lentement gagné en popularité, offrant une architecture flexible pour relier processeurs, mémoire et autres périphériques via PCIe. Ce cadre fournit une interface cohérente pour une séparation des ressources tout en maintenant l’illusion d’un fonctionnement unifié. Au fur et à mesure que la pression sur la mémoire s’intensifie, CXL devient de plus en plus pertinent.

#### Une Évolution Progressive

CXL a commencé par permettre l’extension de la mémoire des serveurs via des modules connectés. Avec CXL 2.0, le concept de “pooling” de mémoire est apparu, permettant de rassembler la mémoire en un fonds commun pour l’assigner selon les besoins, bien que sans véritable partage des ressources entre systèmes. CXL 3.0 a commencé à briser ces limitations, introduisant des topologies plus larges et offrant la possibilité de partager la mémoire entre différentes machines, bien qu’avec certaines contraintes techniques.

### Le Problème Sous-Jacent

La pression exercée par l’IA ne se limite pas seulement à des capacités de calcul. Selon des experts, la mémoire elle-même est souvent un goulot d’étranglement. La HBM, qui accompagne les GPU, est rapide mais coûteuse et limitée en capacité. La difficulté se complique lors de l’entraînement de modèles avec d’énormes ensembles de données et d’optimisation pour les requêtes en temps réel des utilisateurs.

#### La Mémoire dans le Contexte

Chaque réponse d’un modèle de langage se construit progressivement. Pour éviter de recalculer des éléments déjà traités, ces systèmes utilisent une mémoire de travail, la “KV cache”. Cependant, dans des services gagés par une forte affluence, cette cache peut rapidement saturer, requérant plus de mémoire que le modèle lui-même.

### De la Théorie à la Pratique

Il ne s’agit plus d’une simple théorie ou d’un concept abstrait dans des documents techniques. Des entreprises comme Panmnesia, Liqid, et UnifabriX travaillent déjà sur des solutions permettant de centraliser la mémoire en dehors des serveurs, rendant ces ressources accessibles à plusieurs machines. Par exemple, Enfabrica propose un système capable d’atteindre 18 To de DDR5 par serveur et jusqu’à 144 To dans un rack complet. Ainsi, le besoin ne réside pas seulement dans l’augmentation de la mémoire, mais également dans la façon dont celle-ci est gérée pour qu’elle soit pleinement exploitée par l’IA.

F1-ES

L’IA a bouleversé une vieille règle des serveurs : la mémoire ne veut plus vivre sur chaque machine.

Byteknomers

Comment Volkswagen souhaite se réinventer en Chine

Xbox veut attirer 1 milliard de joueurs par jour. C’est ce que feraient 25 Steam lors de leur meilleure journée.

Le juge ouvre une enquête pour juger l’ex-DAO de la Police pour agression sexuelle.

DAX en phase de reprise | Teknomers

On pensait que la clé pour tuer un mammouth était la précision d’une arme létale. Maintenant, nous savons que nous avions tort.

Vous Avez Raté

Comment Volkswagen souhaite se réinventer en Chine

Xbox veut attirer 1 milliard de joueurs par jour. C’est ce que feraient 25 Steam lors de leur meilleure journée.

Le juge ouvre une enquête pour juger l’ex-DAO de la Police pour agression sexuelle.

DAX en phase de reprise | Teknomers