J'ai trouvé cette histoire de NVIDIA avec Groq vraiment intéressante.


En gros, ce que Huang Renxun a expliqué maintenant a beaucoup de sens stratégique.

Tout a commencé parce que le marché de l'inférence a changé.
Avant, tout le monde se concentrait sur une seule chose : augmenter le débit, traiter plus de requêtes en même temps.
Mais ensuite, les gens ont réalisé que ce n'est pas toujours comme ça en pratique.
Certains utilisateurs sont prêts à payer plus cher pour des réponses plus rapides, indépendamment du volume total.

C'est comme ça : vous avez deux modèles identiques, mais l'un répond en 50ms et l'autre en 500ms.
Si vous êtes un ingénieur développant une application en temps réel, combien paieriez-vous en plus pour celui qui est 10 fois plus rapide ?
Exactement, ce marché de la faible latence est totalement différent de celui du débit élevé.

Et là, Groq intervient dans cette histoire.
L'architecture LPU qu'ils ont est justement spécialisée dans ce domaine, avec une faible latence déterministe.
Tandis que les GPU de NVIDIA dominent le côté du débit massif, Groq comble un vide complètement différent.
Quand on regarde le Groq 3 LPU sorti en mars, fabriqué en 4nm par Samsung, la capacité d'inférence par mégawatt dans des modèles trilionaires est 35 fois meilleure que le Blackwell NVL72.
Ce n'est pas une petite différence.

Ce que Huang dit essentiellement, c'est que NVIDIA a compris qu'il n'existe pas un seul marché de l'inférence, mais deux segments très distincts avec des dynamiques de tarification complètement différentes.
Vous pouvez avoir un débit moindre, mais si le prix unitaire par token est beaucoup plus élevé, cela vaut le coup.
C'est comme étendre la frontière de Pareto du marché.

C'était une stratégie bien pensée de NVIDIA, en réalité.
Ils ont reconnu une lacune et sont allés la combler.
Jonathan Ross et l'équipe de Groq continuent d'opérer de manière indépendante, mais maintenant avec tout le poids de NVIDIA derrière eux.
Il semble que quelqu'un pense enfin à l'inférence de manière plus sophistiquée.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler