2026-03-22 10:52:26

Comment comprendre : l'argent que vous payez pour les tokens dans les grands modèles d'IA, c'est en réalité des frais de location de la puissance de calcul des GPU ?

En termes simples, un token est l'« unité de ration minimale » du grand modèle d'IA.

C'est comme quand nous apprenions à lire enfants, nous apprenions d'abord les caractères individuels, puis mémorisions directement les combinaisons de mots courants, ce qui était plus efficace.

L'IA ne reconnaît pas vraiment les caractères chinois ou l'anglais, elle ne reconnaît que les chiffres. Quand vous entrez une phrase, elle est d'abord divisée en tokens individuels, chaque token correspond à un numéro numérique, et ce que l'IA traite réellement, c'est cette série de chiffres. Lors de la sortie, c'est l'inverse : d'abord générer des numéros numériques, puis les traduire en texte pour que vous puissiez les voir.

🔹Alors comment l'IA sait-elle quelle est la probabilité que le mot suivant soit ?

En s'appuyant sur une formation sur des textes massifs, en mémorisant quelle est la probabilité la plus élevée que chaque token soit suivi par, toutes ces probabilités sont stockées dans des centaines de milliards de paramètres, c'est comme le « manuel de connaissances » du grand modèle.

Lors de la génération de réponses, l'IA « bondit token après token », et à chaque bond, elle doit parcourir tout le manuel, noter tous les mots suivants possibles du dictionnaire, et choisir celui avec le score le plus élevé à sortir.

🔹Donc cette tâche consomme beaucoup de puissance de calcul, l'importance du GPU

Le CPU est comme un professeur intelligent mais monothread, en tournant les pages rapidement, il y a toujours des limites, le GPU est comme plusieurs milliers d'écoliers travaillant en même temps, en divisant le manuel en plusieurs milliers de copies, tout le monde calcule en parallèle, en balayant les centaines de millions de paramètres en un instant.

Donc une carte graphique a deux éléments clés : plus de noyaux, plus de puissance de calcul parallèle. Maintenant que le monde entier consomme massivement des tokens, c'est essentiellement d'innombrables cartes graphiques tournant comme des fous en arrière-plan, en feuilletant les manuels et en notant 👇

Donc à proprement parler, l'argent que vous payez pour les tokens est en réalité des frais de location de la puissance de calcul du GPU.

Et les cartes graphiques qui tournent nécessitent de l'électricité, du stockage, donc l'industrie le résume en une phrase :

L'IA manque à court terme de puissance de calcul, à long terme d'énergie, et manque toujours de stockage.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime