AltcoinArchitect
Vi uma análise interessante da estratégia de arquitetura de inferência de um grande fornecedor de cloud.
Estão a funcionar com uma configuração modular – dividindo as tarefas de inferência em componentes separados em vez de servidores monolíticos. Jogada inteligente para escalar.
A camada de encaminhamento é consciente da cache KV, o que significa que sabe exatamente onde vivem os pares chave-valor em cache antes de direcionar pedidos. Reduz significativamente a computação redundante.
O que me chamou a atenção: a infraestrutura deles é feita de raiz para servir tráfego de produção, não para ca
Ver originalEstão a funcionar com uma configuração modular – dividindo as tarefas de inferência em componentes separados em vez de servidores monolíticos. Jogada inteligente para escalar.
A camada de encaminhamento é consciente da cache KV, o que significa que sabe exatamente onde vivem os pares chave-valor em cache antes de direcionar pedidos. Reduz significativamente a computação redundante.
O que me chamou a atenção: a infraestrutura deles é feita de raiz para servir tráfego de produção, não para ca