DeepSeek anunciou novo modelo MODEL1: Passo tecnológico em um ano

robot
Geração do resumo em andamento

A DeepSec anunciou recentemente uma inovação histórica, levando seus avanços técnicos a novos patamares. Após um ano do sucesso do DeepSec-R1 em janeiro, a empresa está pronta para lançar um novo modelo, o MODEL1. Esta notícia foi recebida com entusiasmo por especialistas do setor e pela comunidade tecnológica.

Revelação de mudanças técnicas no GitHub

A DeepSec atualizou seu código no GitHub, indicando mudanças significativas. Na atualização, foram encontradas menções ao “MODEL1” em 28 de 114 arquivos, indicando um esforço extenso na preparação do novo modelo. Essas mudanças no código Flash MLA são especialmente notáveis e apontam para uma nova direção técnica.

MODEL1 versus V32: nova arquitetura

A versão atual V32, conhecida como DeepSec v3.2, será diferente da nova estrutura do MODEL1. As diferenças principais destacam-se em três áreas: melhorias na estrutura do KV Cache, alterações no método de quantização e uma nova técnica de codificação FP8D. Todas essas mudanças visam tornar o sistema mais eficiente.

Economia de memória e avanços na computação

Uma grande vantagem do MODEL1 é a otimização do uso de memória durante o processamento. Estratégias inovadoras foram implementadas para economizar memória em diferentes etapas de processamento. Essas mudanças irão melhorar o desempenho do novo modelo da DeepSec, reduzindo a necessidade de recursos, representando um avanço importante na indústria.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar