Xiaomi révèle les détails de formation du modèle 1T MiMo-V2-Pro : des milliers de GPU utilisés, pas de niveaux de tâches ni de délais

robot
Création du résumé en cours

Selon la surveillance de Dongcha Beating, Luo Fuli, responsable de l’équipe des grands modèles de Xiaomi, a révélé lors de sa première interview approfondie que la base du modèle MiMo-V2-Pro comporte un total de 1T de paramètres, utilisant des milliers de GPU pour l’entraînement. Elle pense qu’une échelle de 1T est la référence pour atteindre des performances proches de Claude Opus 4.6 et assurer une entrée dans la prochaine phase de compétition des agents. Sur le plan technique, la version Pro pousse le ratio d’attention globale à l’attention par fenêtre glissante à un ratio de sparsité extrême de 7:1, contrôlant le coût de raisonnement pour les textes longs tout en augmentant le nombre de paramètres, et continue d’utiliser l’architecture MTP (Multi-Token Prediction) pour exploiter la puissance de calcul excédentaire afin d’accélérer l’inférence. Sur le plan de la gestion, seulement environ 30 à 40 membres sur une centaine de l’équipe MiMo participent directement aux itérations principales, sans niveaux de poste établis, divisions claires en groupes ou délais de livraison. Lorsqu’ils rencontrent des problèmes numériques instables tels que des changements soudains dans la perte d’entraînement, l’équipe préfère arrêter l’entraînement pour diagnostiquer, même si cela signifie suspendre pendant une ou deux semaines et engager des coûts informatiques de plusieurs millions.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler