Je viens de remarquer quelque chose d'intéressant que la plupart des gens ignorent encore. Tout le monde s'est concentré pendant des années sur l'approvisionnement en GPU, mais discrètement, les CPU sont devenus la véritable contrainte dans l'infrastructure IA. Et ce changement se produit plus rapidement que la plupart ne le réalisent.



Le mois dernier, Google et Intel ont annoncé un accord massif pluriannuel spécifiquement pour résoudre ce goulet d'étranglement des CPU. La communication d'Intel était claire : l'IA ne fonctionne pas uniquement avec des GPU—les CPU et l'orchestration du système sont désormais le facteur limitant. Pendant ce temps, les prix des CPU serveurs ont augmenté d'environ 30 % au quatrième trimestre de l'année dernière, ce qui est fou pour un marché mature. Les délais de livraison d'AMD sont passés de 8 semaines à plus de 10 semaines, avec certains composants subissant des retards de 6 mois. Ce n'est pas de la hype—c'est une pression réelle sur l'offre.

L'ironie est brutale : les laboratoires d'IA ont beaucoup de GPU inutilisés mais ne peuvent pas obtenir suffisamment de CPU haut de gamme pour les faire fonctionner. La capacité en 3 nm de TSMC est saturée par les commandes de GPU, donc l'allocation des wafers CPU continue d'être réaffectée. Même Elon Musk s'est lancé dans le jeu des CPU, commandant à Intel la conception de puces personnalisées pour son projet Terafab au Texas. C'est à quel point la situation est tendue.

Pourquoi ce changement soudain ? C'est parce que les charges de travail des agents sont complètement différentes de l'inférence traditionnelle. Les chatbots déchargent principalement le calcul vers les GPU. Mais les agents ? Ils doivent orchestrer des API, gérer des bases de données, exécuter du code et coordonner les résultats—toutes des tâches intensives en CPU. Des chercheurs de Georgia Tech ont découvert que le travail côté CPU représente désormais entre 50 et 90 % de la latence totale dans les systèmes d'agents. Le GPU est là, prêt à l'emploi, pendant que le CPU gère encore les appels aux outils.

L'explosion des fenêtres de contexte n'aide pas non plus. Les modèles supportent maintenant plus d'un million de tokens, et le cache KV atteint seul environ 200 Go—bien au-delà de ce qu'un seul H100 peut contenir. Les CPU doivent décharger et gérer cette mémoire, ils ne se contentent plus d'orchestrer ; ils font une gestion sérieuse des données.

Regardez comment les fabricants réagissent. La PDG d'AMD, Lisa Su, a été assez directe : les charges de travail des agents repoussent les tâches vers les CPU traditionnels, ce qui stimule leur croissance. Le chiffre d'affaires des centres de données d'AMD a atteint 5,4 milliards de dollars au quatrième trimestre, en hausse de 39 % d'une année sur l'autre, avec les CPU EPYC en première ligne. La part de marché d'AMD dans les CPU serveurs a dépassé 40 % pour la première fois. Mais AMD manque encore des capacités d'interconnexion CPU-GPU serrées que NVIDIA construit avec NVLink.

NVIDIA a adopté une approche différente. Leur CPU Grace ne compte que 72 cœurs contre 128 pour AMD ou la configuration typique d'Intel. Au lieu de poursuivre le nombre de cœurs, NVIDIA a optimisé pour la collaboration—NVLink C2C pousse la bande passante à 1,8 To/s, permettant au CPU d'accéder directement à la mémoire GPU. Ils ont commencé à vendre Grace comme un produit autonome, et Meta a récemment lancé un déploiement massif de "Grace pur" sans associer de GPU. C'est un signal.

Intel joue sur les deux tableaux—poussant ses processeurs Xeon profondément dans des partenariats avec des hyperscalers tout en collaborant avec SambaNova sur des solutions hybrides qui exécutent l'inférence d'agents sans GPU. Le processus 18A et la feuille de route Xeon 6 Granite Rapids seront cruciaux pour eux.

Voici la vue d'ensemble : le partenariat entre Amazon et $38B OpenAI mentionne explicitement le déploiement de "dizaines de millions de CPU". C'est un changement par rapport à l'ancien manuel de "centaines de milliers de GPU". Bank of America prévoit que le marché des CPU pourrait doubler d'ici $27B à $60B d'ici 2030, presque entièrement alimenté par l'IA.

Ce que nous voyons vraiment, c'est une reconstruction complète de l'infrastructure. Les entreprises ne se contentent plus d'étendre les GPU—elles construisent simultanément toute une couche d'infrastructure d'orchestration CPU spécialement conçue pour les agents IA. Quand le calcul devient abondant, l'efficacité au niveau du système devient le facteur différenciateur. Les prochains gagnants en IA ne seront pas déterminés par le nombre brut de GPU ; ils seront ceux qui résolvent en premier le goulet d'étranglement des CPU.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler