Resumo: A entrevista com Luo Fuli descreve o Xiaomi MiMo-V2-Pro, um modelo com trilhões de parâmetros, pesado em GPU, visando capacidades semelhantes ao Claude Opus 4.6. Ele emprega atenção extremamente esparsa com MTP; riscos operacionais incluem uma equipa reduzida e com estrutura insuficiente que interrompe o treino quando as perdas aumentam, incorrendo em custos elevados.O MiMo-V2-Pro supostamente possui 1T de parâmetros treinados em milhares de GPUs, visando um desempenho ao nível do Claude Opus 4.6. Utiliza atenção extremamente esparsa (7:1) com MTP; uma pequena equipa interrompe o treino instável para solucionar problemas, arriscando milhões em custos.

AirdropBlackHole

2026-04-26 10:18:31

Geração de resumo em curso

De acordo com o monitoramento da Dongcha Beating, Luo Fuli, chefe da equipa de modelos grandes da Xiaomi, revelou na sua primeira entrevista aprofundada que a base do modelo MiMo-V2-Pro tem um total de 1T de parâmetros, utilizando milhares de GPUs para o treino. Ela acredita que uma escala de 1T é a linha de base para alcançar um desempenho próximo do Claude Opus 4.6 e garantir entrada na próxima fase da competição de agentes. A nível técnico, a versão Pro aumenta a proporção de atenção global para atenção de janela deslizante para uma proporção esparsa extrema de 7:1, controlando o custo de raciocínio para textos longos enquanto expande o número de parâmetros, e continua a usar a arquitetura MTP (Multi-Token Prediction) para aproveitar o poder de computação excedente para uma inferência acelerada. No lado da gestão, apenas cerca de 30 a 40 membros da equipa MiMo, de cem, estão diretamente envolvidos nas iterações principais, sem níveis de trabalho estabelecidos, divisões claras de grupo ou prazos de entrega. Quando enfrentam problemas numéricos instáveis, como mudanças súbitas na perda de treino, a equipa opta por interromper o treino para resolução de problemas, mesmo que isso signifique parar por uma ou duas semanas e incorrer em milhões de custos de computação.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
259.8K Popularidade
#
CryptoMarketSeesVolatility
316.8K Popularidade
#
IsraelStrikesIranBTCPlunges
33.71K Popularidade
#
rsETHAttackUpdate
110.86K Popularidade
#
US-IranTalksStall
500.88K Popularidade

Fixar

Xiaomi revela detalhes de treino do modelo 1T MiMo-V2-Pro: milhares de GPUs usadas, sem níveis de trabalho ou prazos

Tópicos em destaque

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Fixar