Xiaomi revela detalhes de treino do modelo 1T MiMo-V2-Pro: milhares de GPUs usadas, sem níveis de trabalho ou prazos

robot
Geração de resumo em curso

De acordo com o monitoramento da Dongcha Beating, Luo Fuli, chefe da equipa de modelos grandes da Xiaomi, revelou na sua primeira entrevista aprofundada que a base do modelo MiMo-V2-Pro tem um total de 1T de parâmetros, utilizando milhares de GPUs para o treino. Ela acredita que uma escala de 1T é a linha de base para alcançar um desempenho próximo do Claude Opus 4.6 e garantir entrada na próxima fase da competição de agentes. A nível técnico, a versão Pro aumenta a proporção de atenção global para atenção de janela deslizante para uma proporção esparsa extrema de 7:1, controlando o custo de raciocínio para textos longos enquanto expande o número de parâmetros, e continua a usar a arquitetura MTP (Multi-Token Prediction) para aproveitar o poder de computação excedente para uma inferência acelerada. No lado da gestão, apenas cerca de 30 a 40 membros da equipa MiMo, de cem, estão diretamente envolvidos nas iterações principais, sem níveis de trabalho estabelecidos, divisões claras de grupo ou prazos de entrega. Quando enfrentam problemas numéricos instáveis, como mudanças súbitas na perda de treino, a equipa opta por interromper o treino para resolução de problemas, mesmo que isso signifique parar por uma ou duas semanas e incorrer em milhões de custos de computação.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar