Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
A16z: A próxima fronteira da IA, o triplo ciclo de impulso de robôs, ciência autônoma e interfaces cérebro-máquina
Título original: Sistemas Frontier para o Mundo Físico
Autor original: Oliver Hsu
Fonte original:
Reprodução: Mars Finance
Leitura introdutória: Este artigo, do pesquisador da a16z Oliver Hsu, é o mapa de investimento mais sistemático em «IA física» desde 2026. Sua avaliação é: a linha principal de escala de linguagem/código ainda está em expansão, mas as verdadeiras capacidades revolucionárias da próxima geração estão nas três áreas adjacentes — robótica geral, ciência autônoma (cientistas de IA), interfaces cérebro-máquina e outros novos interfaces homem-máquina. O autor desmembra as cinco capacidades fundamentais que as sustentam e argumenta que essas três frentes formarão um ciclo de feedback estrutural que se alimenta mutuamente. Para quem quer entender a lógica de investimento em IA física, este é atualmente o quadro mais completo.
Hoje, o paradigma dominante de IA gira em torno de linguagem e código. A lei de escala de grandes modelos de linguagem já está bem definida, o ciclo de negócios de dados, poder computacional e melhorias de algoritmos está em movimento, e os retornos de cada avanço de capacidade ainda são significativos — e na maior parte visíveis. Essa abordagem justifica o capital e a atenção que atrai.
Por outro lado, um conjunto adjacente de áreas já está em fase de incubação com progresso substancial. Isso inclui rotas de robótica geral como VLA (modelo de visão-linguagem-ação), WAM (modelo de ação do mundo), além de raciocínio físico e científico centrado na figura do «cientista de IA», e interfaces inovadoras que usam avanços em IA para remodelar a interação homem-máquina (incluindo interfaces cérebro-máquina e neurotecnologia).
Além da tecnologia em si, esses campos estão começando a atrair talentos, capital e fundadores. As linguagens técnicas que estendem a IA de ponta para o mundo físico estão amadurecendo simultaneamente, e os avanços dos últimos 18 meses indicam que esses domínios logo entrarão em suas fases de escala.
Em qualquer paradigma tecnológico, o maior delta entre capacidade atual e potencial de médio prazo costuma estar em locais que possuem duas características: primeiro, podem se beneficiar dos mesmos dividendos de escala que impulsionam a linha principal; segundo, estão a uma etapa de distância do paradigma dominante — o suficiente para herdar sua infraestrutura e dinamismo de pesquisa, mas ainda exigindo trabalho adicional concreto.
Essa distância tem um duplo efeito: ela cria uma barreira natural para seguidores rápidos, ao mesmo tempo que define um espaço de problema mais escasso e menos saturado de informações, aumentando a probabilidade de surgimento de novas capacidades — justamente porque os atalhos ainda não foram totalmente percorridos.
Atualmente, três áreas se encaixam nessa descrição: aprendizado de robôs, ciência autônoma (especialmente materiais e ciências da vida), e novos interfaces homem-máquina (incluindo interfaces cérebro-máquina, fala silenciosa, wearables neurais, e canais sensoriais inovadores como olfato digital).
Elas não operam de forma totalmente independente; compartilham uma mesma «família» de sistemas de ponta no mundo físico. Elas usam uma base comum de primitivas: aprendizado de dinâmica física, arquiteturas voltadas para ações corporais, infraestrutura de simulação e geração de dados sintéticos, canais sensoriais em expansão contínua, e agentes inteligentes em ciclo fechado. Essas áreas se reforçam mutuamente por meio de feedback intersetorial. São também os locais mais propensos a emergir capacidades de mudança de paradigma — resultado da interação entre escala de modelos, implementação física e novos tipos de dados.
Este artigo irá explorar essas primitivas tecnológicas, explicar por que esses três campos representam oportunidades de ponta, e propor que sua interação reforçada forma um ciclo de feedback estrutural que impulsiona a IA para o mundo físico.
Cinco primitivas fundamentais
Antes de mergulhar em aplicações específicas, é importante entender as bases tecnológicas compartilhadas por esses sistemas de ponta. Para levar IA de ponta ao mundo físico, dependemos de cinco primitivas principais. Essas tecnologias não são exclusivas de um único campo de aplicação; são componentes — capazes de permitir a construção de sistemas que «estendem a IA ao mundo físico». Sua maturidade simultânea é a razão pela qual este momento é particularmente especial.
Primitiva 1: Representação de aprendizado de dinâmica física
A primitiva mais fundamental é a capacidade de aprender uma representação compacta e geral do comportamento físico do mundo — como objetos se movem, deformam, colidem, reagem às forças. Sem essa camada, cada sistema de IA física teria que aprender suas próprias leis físicas do zero, o que é inviável.
Vários ramos arquiteturais estão se aproximando desse objetivo por diferentes caminhos. Modelos VLA (visão-linguagem-ação) partem do topo: usam modelos pré-treinados de visão-linguagem — que já compreendem relações de objetos, espaço e semântica de linguagem — e acrescentam um decodificador de ações que gera comandos de movimento.
O ponto-chave é que o enorme custo de aprender a «ver» e «entender o mundo» pode ser diluído por pré-treinamentos em escala de internet de textos e imagens. O π₀ de Physical Intelligence, o Gemini Robotics do Google DeepMind, e o GR00T N1 da Nvidia estão validando essa arquitetura em escalas cada vez maiores.
Modelos WAM abordam de baixo para cima: usam transformadores de difusão de vídeo treinados em escala de internet — herdando fortes priors físicos (como queda de objetos, oclusões, interação sob força) — e combinam esses priors com geração de ações.
A Nvidia DreamZero demonstra generalização zero-shot para tarefas e ambientes inéditos, usando poucos dados de adaptação a partir de vídeos humanos, com melhorias significativas na generalização ao mundo real.
A terceira rota, talvez a mais inspiradora para o futuro, pula toda a pré-treina de VLM e difusão de vídeo. O GEN-1, um modelo de base corporificado treinado do zero, foi treinado com mais de 500 mil horas de dados de interação física real, coletados principalmente por dispositivos vestíveis de baixo custo de pessoas realizando tarefas cotidianas.
Ele não é um VLA padrão (sem backbone de visão-linguagem ajustado), nem WAM. É um modelo de base projetado especificamente para interação física, aprendendo não as estatísticas de imagens, textos ou vídeos da internet, mas as estatísticas de contato humano com objetos.
Empresas como World Labs trabalham com inteligência espacial, que é valiosa para essa primitiva, pois preenche uma lacuna comum a VLA, WAM e modelos corporificados nativos: a ausência de modelagem explícita da estrutura tridimensional do cenário.
VLA herda características visuais 2D de pré-treinamentos de textos e imagens; WAM aprende dinâmica de vídeos, que são projeções 3D em 2D; modelos treinados com sensores vestíveis captam força e cinemática, mas não a geometria do cenário. Modelos de inteligência espacial podem ajudar a reconstruir, gerar e raciocinar sobre a estrutura física completa do ambiente — geometria, iluminação, oclusões, relações entre objetos, disposição espacial.
A convergência dessas rotas é um ponto central. Independentemente de a representação vir de VLM, de treinamento colaborativo com vídeos ou de dados de interação física nativos, a base comum é um modelo de comportamento físico do mundo, compacto e transferível.
Essas representações podem consumir um ciclo de dados gigantesco — ainda na maior parte inexplorado — incluindo vídeos de internet, trajetórias de robôs, e a vasta quantidade de experiência corporal humana que dispositivos vestíveis começam a coletar em escala. A mesma representação serve a um robô aprendendo a empilhar toalhas, a um laboratório autônomo prevendo reações, ou a um neurodecodificador interpretando intenções de agarrar no córtex motor.
Primitiva 2: Arquitetura voltada para ações corporais
Ter apenas representação física não basta. Para traduzir «compreensão» em ações físicas confiáveis, é preciso uma arquitetura que resolva questões interligadas: mapear intenções de alto nível em comandos de movimento contínuo, manter consistência em sequências longas, operar com baixa latência em tempo real, e evoluir com a experiência.
A arquitetura de duas camadas já se tornou padrão para tarefas corporais complexas: um modelo visual-linguagem lento e robusto para compreensão de cenário e raciocínio de tarefas (Sistema 2), junto de uma estratégia de controle visual-motor rápida e leve (Sistema 1). Modelos como GR00T N1, Gemini Robotics e Helix da Figure usam variações dessa abordagem, resolvendo a tensão entre o raciocínio de modelos grandes e a necessidade de controle em milissegundos. O Generalist, por sua vez, usa «raciocínio ressonante» para fazer pensamento e ação acontecerem simultaneamente.
Os mecanismos de geração de ações também evoluem rapidamente. O head de ações baseado em fluxo e difusão, criado por π₀,₆, tornou-se o método dominante para gerar movimentos suaves e contínuos de alta frequência, substituindo a tokenização discreta herdada de modelos de linguagem. Essas abordagens tratam a geração de ações como um processo de denoising semelhante à síntese de imagens, produzindo trajetórias mais suaves e robustas a erros acumulados, superando previsões autoregressivas de tokens.
No nível de arquitetura, o avanço mais importante talvez seja a extensão do aprendizado por reforço (RL) a modelos pré-treinados de ações corporais (VLA). Um modelo treinado em dados de demonstração pode continuar a melhorar por prática autônoma, como um humano que refina uma habilidade com repetição e autoajuste. O trabalho de π*₀.₆ em Physical Intelligence demonstra claramente essa escala. Eles usam RECAP (Aprendizado por Reforço com Correções Baseadas em Vantagens), que resolve o problema de atribuição de crédito em sequências longas, combinando dados de demonstração, experiência autônoma e correções remotas de especialistas.
Essa abordagem traz boas notícias para o futuro do RL na ação: o modelo π*₀.₆ consegue empilhar 50 tipos de roupas nunca vistos, montar caixas de papelão de forma confiável, fazer café expresso em máquinas profissionais, tudo por horas sem intervenção humana. Em tarefas difíceis, o RECAP dobrou a taxa de sucesso em relação a métodos de imitação pura, e reduziu a taxa de falha pela metade. Além disso, demonstra que o treinamento pós-RL pode gerar comportamentos qualitativamente superiores — movimentos de recuperação mais suaves, estratégias de agarrar mais eficientes, correções adaptativas que não estavam nos dados de demonstração.
Esses resultados indicam que a força de escala de modelos grandes, de GPT-2 a GPT-4, já está operando na área de ações corporais — embora ainda em uma fase inicial, com espaço para lidar com espaços de ação contínuos, de alta dimensão, e com as restrições físicas do mundo real.
Primitiva 3: Simulação e dados sintéticos como infraestrutura de escala
Na área de linguagem, o problema de dados foi resolvido pela internet: trilhões de tokens de texto gerados naturalmente, de acesso gratuito. No mundo físico, esse problema é várias ordens de magnitude maior — e essa é uma constatação consensual. O sinal mais direto é o crescimento acelerado de startups de fornecimento de dados físicos.
Coletar trajetórias reais de robôs é caro, arriscado em escala, e limitado em diversidade. Modelos de linguagem podem aprender com bilhões de diálogos; um robô, por enquanto, não consegue ter bilhões de interações físicas.
A geração de dados sintéticos por simulação é a infraestrutura fundamental para superar essa limitação, e sua maturidade é uma das razões principais para a aceleração do IA física hoje, em vez de há cinco anos.
A pilha moderna de simulação combina motores físicos, renderização fotorrealista por ray tracing, geração procedural de ambientes, e modelos de mundo que geram vídeos fotorrealistas a partir de entradas simuladas — ajudando a fechar a lacuna sim-to-real. Todo o pipeline começa com reconstrução neural do ambiente real (que pode ser feita com um smartphone), preenchendo ativos 3D precisos, até a geração de grandes volumes de dados sintéticos anotados automaticamente.
A melhoria na simulação muda a economia do IA físico: se o gargalo passa de «coletar dados reais» para «projetar ambientes virtuais diversos», os custos despencam. A simulação escala com poder computacional, sem depender de mão de obra ou hardware físico. Essa mudança na estrutura econômica de treinamento de IA físico é análoga à transformação do uso de dados de texto na internet para treinar modelos de linguagem — um investimento em infraestrutura de simulação que potencializa toda a ecologia.
Mas simulação não serve só para primitivas de robótica. A mesma infraestrutura apoia ciência autônoma (gêmeos digitais de laboratórios, ambientes de simulação para hipóteses), novas interfaces (ambientes neurais simulados para treinar decodificadores BCI, dados sintéticos para calibração de sensores), e outros domínios de interação IA-mundo físico. A simulação é o motor de dados universal para IA física.
Primitiva 4: Ampliação de canais sensoriais
Os sinais do mundo físico transmitem informações muito além de visão e linguagem. O tato revela propriedades de materiais, estabilidade de pegada, geometria de contato — informações invisíveis a câmeras. Os sinais neurais, por sua vez, codificam intenções de movimento, estados cognitivos e experiências sensoriais com largura de banda muito maior do que qualquer interface homem-máquina atual. A atividade muscular subglótica antecipa a fala antes mesmo de ela ser produzida. A quarta primitiva é a rápida expansão dessas vias sensoriais anteriormente inacessíveis, impulsionada tanto por pesquisa quanto por uma ecologia de dispositivos, softwares e infraestrutura de consumo.
O indicador mais direto é o surgimento de novos dispositivos. Óculos de realidade aumentada melhoraram bastante em experiência e forma nos últimos anos (com empresas já explorando aplicações comerciais e industriais); wearables focados em fala permitiram que IA de linguagem tivesse contexto físico mais completo — eles realmente acompanham o usuário no ambiente físico.
A longo prazo, interfaces neurais podem abrir modos de interação mais completos. A mudança na computação trazida pela IA cria uma oportunidade de elevar drasticamente a interação homem-máquina, e empresas como Sesame estão desenvolvendo novos canais e dispositivos para isso.
A fala, como modo de interação mais consolidado, também impulsiona novas formas de comunicação. Produtos como Wispr Flow priorizam a fala como principal entrada (por sua alta densidade de informação e vantagens naturais), enquanto interfaces de fala silenciosa — que usam sensores para captar movimentos da língua e das cordas vocais, reconhecendo a fala sem som — representam uma modalidade de interação homem-máquina com maior densidade de informação.
Interfaces cérebro-máquina (tanto invasivas quanto não invasivas) representam fronteiras mais profundas, com ecossistemas comerciais em contínuo desenvolvimento. Os sinais aparecem em validações clínicas, aprovações regulatórias, integrações de plataformas e investimentos institucionais — uma evolução de uma tecnologia que há poucos anos era exclusivamente acadêmica.
A percepção tátil também está entrando na arquitetura de IA corporificada, com alguns modelos de robótica começando a tratar o tato como uma capacidade fundamental. Interfaces olfativas estão se tornando produtos reais: dispositivos vestíveis com geradores de odores em miniatura, resposta em milissegundos, já demonstrados em aplicações de realidade mista; modelos de olfato também começam a ser combinados com sistemas de IA visual, para monitoramento de processos químicos.
O padrão comum dessas evoluções é que elas tendem a convergir em seus limites. Óculos de AR continuam gerando dados visuais e espaciais de interação usuário-ambiente; pulseiras EMG captam padrões de intenção motora; interfaces silenciosas de fala captam a relação entre atividade subglótica e fala; BCI de alta resolução decodificam atividade neural; sensores táteis captam dinâmica de contato físico. Cada novo dispositivo também funciona como uma plataforma de geração de dados, alimentando múltiplos modelos de aplicação.
Um robô treinado com dados de EMG para inferir intenções de movimento é diferente de um treinado apenas com dados de controle remoto; uma interface de laboratório que responde a comandos subglóticos é diferente de uma controlada por teclado; um decodificador neural treinado com alta densidade de dados BCI produz representações de planejamento de movimento que nenhum outro canal consegue fornecer.
A disseminação desses dispositivos expande o espaço de dados disponíveis para treinar sistemas de IA física avançados — e essa expansão é impulsionada em grande parte por empresas de consumo com forte capital, não apenas por laboratórios acadêmicos, o que faz o ciclo de dados acelerar junto com a adoção de mercado.
Primitiva 5: Sistemas de agentes em ciclo fechado
Por fim, uma primitiva mais relacionada à arquitetura: a capacidade de integrar percepção, raciocínio e ação em sistemas autônomos, contínuos e em ciclo fechado, operando por longos períodos sem intervenção humana.
No campo de modelos de linguagem, essa evolução é representada pelo surgimento de agentes inteligentes — cadeias de raciocínio múltiplo, uso de ferramentas, autoajuste — que elevam o modelo de uma ferramenta de perguntas e respostas a um solucionador autônomo de problemas. No mundo físico, uma transformação semelhante está em andamento, mas com requisitos muito mais rigorosos. Um agente de linguagem pode cometer erros e retroceder sem custo; um agente físico que derruba uma garrafa de reagentes não pode simplesmente desfazer o erro.
Os sistemas de agentes físicos têm três características que os diferenciam dos digitais.
Primeiro, eles precisam estar integrados a experimentos ou operações em ciclo fechado: conectados diretamente a fluxos de dados de instrumentos, sensores de estado físico e primitivas de execução, permitindo que o raciocínio seja aplicado à realidade física, e não apenas a descrições textuais.
Segundo, requerem persistência em sequências longas: memória, rastreamento de origem, monitoramento de segurança, recuperação de ações — conectando múltiplos ciclos de operação, não tratando cada tarefa como um episódio isolado.
Terceiro, precisam de adaptação em ciclo fechado: ajustar estratégias com base nos resultados físicos, e não apenas em feedback textual.
Essa primitiva integra capacidades independentes — bons modelos de mundo, arquiteturas confiáveis de ação, sensores diversos — formando um sistema completo capaz de operar de forma autônoma no mundo físico. É a camada de integração, cuja maturidade é condição prévia para que esses três campos possam ser implantados no mundo real, além de demonstrações isoladas de pesquisa.
Três áreas
As primitivas acima são camadas de habilitação universais; elas não determinam onde os principais aplicativos irão se consolidar. Muitos domínios envolvem ações físicas, medições físicas ou percepção física. A distinção entre «sistemas de ponta» e «apenas melhorias de sistemas existentes» está na profundidade do efeito de escala e na capacidade de gerar efeitos de retroalimentação exponencial — não apenas desempenho melhor, mas surgimento de novas capacidades antes impossíveis.
Robótica, ciência impulsionada por IA, e novas interfaces homem-máquina são esses três domínios com maior efeito de retroalimentação. Cada um combina primitivas de forma única, cada um está atualmente limitado pelas restrições que as primitivas estão eliminando, e cada um gera como subproduto uma quantidade de dados físicos estruturados — que, por sua vez, alimentam melhorias nas primitivas, formando ciclos de feedback que aceleram o sistema como um todo. Não são os únicos campos de IA física relevantes, mas são os mais densos em interação com a realidade física, e também os mais distantes do paradigma de linguagem/código atual, com maior potencial de surgimento de novas capacidades — além de serem altamente complementares e capazes de se beneficiar dos seus dividendos.
Robótica
Robótica é a manifestação mais literal de IA física: um sistema de IA que precisa perceber, raciocinar e exercer ações físicas no mundo material em tempo real. Ela também testa todas as primitivas.
Imagine quanto um robô universal precisa fazer para empilhar uma toalha. Precisa de uma representação aprendida de como materiais deformáveis se comportam sob força — um prior físico que a pré-visualização por linguagem não fornece. Precisa de uma arquitetura de controle que traduza comandos de alto nível em sequências contínuas de movimento a mais de 20 Hz.
Necessita de dados de treinamento gerados por simulação, pois ninguém coletou milhões de demonstrações reais de empilhamento de toalhas. Precisa de feedback tátil para detectar escorregamento e ajustar a força de pegada, pois a visão não consegue distinguir uma pegada firme de uma instável. Precisa de um controlador em ciclo fechado que identifique erros ao empilhar errado e recupere, ao invés de seguir cegamente uma trajetória memorizada.
Por que a robótica é um sistema de ponta, e não uma disciplina de engenharia madura? Essas primitivas não são melhorias em capacidades existentes, mas desbloqueios de categorias de operação, movimento e interação que estavam fora do alcance além de ambientes industriais controlados.
Nos últimos anos, houve avanços significativos — já escrevemos sobre isso. A primeira geração de VLA mostrou que modelos de base podem controlar robôs para tarefas variadas. Avanços na arquitetura conectaram raciocínio de alto nível e controle de baixo nível. Raciocínio no dispositivo final tornou-se viável, e a transferência entre diferentes plataformas de robôs é possível com poucos dados. O desafio central ainda é a confiabilidade em escala, que limita a implantação. Uma taxa de sucesso de 95% por passo, em uma cadeia de 10 passos, ainda é insuficiente para ambientes de produção. O aprendizado por reforço pós-treinamento tem potencial para ajudar a superar esses obstáculos, elevando a robustez e a escala.
Esses avanços impactam a estrutura de mercado. Por décadas, o valor da robótica residiu na máquina física — que continua sendo uma peça-chave. Mas, com estratégias de aprendizado mais padronizadas, o valor migra para modelos, infraestrutura de treinamento e ciclos de dados. Cada trajetória real de um robô é uma oportunidade de melhorar o modelo de mundo, preencher lacunas de simulação, ou ampliar a diversidade de experiências físicas disponíveis para pré-treinamento. Robótica é tanto consumidora quanto geradora de sinais de melhoria para as primitivas, formando um ciclo de retroalimentação que acelera o avanço do sistema.
Ciência autônoma
Se robótica testa primitivas com ações físicas em tempo real, a ciência autônoma avalia a capacidade de raciocínio contínuo sobre sistemas físicos complexos — com duração de horas ou dias, interpretando resultados, ajustando estratégias e conduzindo experimentos de forma autônoma.
A IA na ciência é o campo de combinação de primitivas mais completo. Um laboratório autônomo (self-driving lab, SDL) precisa aprender representações de dinâmica física-química para prever resultados; usar ações corporais para manipular líquidos, posicionar amostras e operar instrumentos; gerar simulações para pré-seleção de experimentos e otimizar uso de equipamentos escassos; ampliar canais sensoriais — espectroscopia, cromatografia, espectrometria de massa, além de sensores químicos e biológicos — para caracterizar resultados.
Mais do que qualquer outro campo, a ciência autônoma exige uma orquestração de primitivas em ciclo fechado: manter fluxos de trabalho de hipóteses, experimentos, análises e ajustes sem intervenção humana, com rastreabilidade, monitoramento de segurança e adaptação contínua às descobertas.
Nenhum outro domínio utiliza essas primitivas de forma tão profunda. É por isso que a ciência autônoma é um sistema de ponta, e não uma automação laboratorial mais eficiente. Empresas como Periodic Labs e Medra combinam capacidades de raciocínio científico e validação física, acelerando a inovação e gerando dados de treinamento para experimentos.
O valor dessas plataformas é intuitivamente claro. A descoberta de novos materiais, que leva anos para chegar ao mercado, pode ser acelerada por IA — potencialmente reduzindo esse tempo drasticamente. A restrição principal passa de geração de hipóteses (que modelos podem auxiliar bem) para fabricação e validação (que requerem instrumentos físicos, robótica e ciclo fechado). O SDL é uma resposta direta a esse gargalo.
Outra característica fundamental da ciência autônoma — válida para todos os sistemas físicos — é seu papel como motor de dados: cada experimento gera não só um resultado científico, mas um sinal de treinamento validado, com aplicação direta na modelagem física.
Por exemplo, uma medição de como um polímero cristaliza sob certas condições enriquece o modelo de materiais; uma rota sintética validada vira dado de raciocínio físico; uma falha observada informa onde o modelo de previsão falha. Dados de um cientista de IA que realiza experimentos reais são estruturados, causais e validados empiricamente — exatamente o tipo de dado que modelos de raciocínio físico mais precisam e que não é facilmente obtido de outras fontes. A ciência autônoma transforma a realidade física em conhecimento estruturado, alimentando o ecossistema de IA física.
Novos interfaces
Robôs estendem IA às ações físicas, ciência autônoma estende IA à pesquisa física, e novas interfaces conectam IA à percepção, sensação e sinais corporais humanos — de óculos de RA a wearables neurais implantáveis.
O que une esses dispositivos não é uma tecnologia única, mas uma função comum: ampliar a largura de banda e os modos de comunicação entre a inteligência humana e os sistemas de IA — gerando dados de interação humano-mundo que podem ser usados na construção de IA física.
A distância do paradigma principal é tanto um desafio quanto uma oportunidade. Modelos de linguagem entendem esses modos de percepção em nível conceitual, mas não dominam naturalmente os padrões de movimento silencioso, as estruturas geométricas de receptores olfativos, ou a dinâmica temporal de sinais EMG.
Decodificar esses sinais exige aprender suas representações a partir das vias sensoriais em expansão. Muitos desses modos não têm uma vasta base de dados pré-treinada na internet; os dados geralmente só podem ser gerados pelos próprios dispositivos — o que implica uma evolução conjunta do sistema e de seus dados de treinamento, algo sem paralelo na IA de linguagem.
Recentemente, o destaque é o crescimento acelerado de dispositivos vestíveis de IA como produtos de consumo. Óculos de RA, por exemplo, evoluíram bastante em experiência e forma, com aplicações comerciais e industriais já em andamento; wearables focados em fala permitem que IA de linguagem tenha contexto físico mais completo — eles realmente acompanham o usuário no ambiente.
A longo prazo, interfaces neurais podem abrir modos de interação mais completos. A mudança na computação trazida pela IA cria uma oportunidade de transformar drasticamente a interação homem-máquina, e empresas como Sesame estão desenvolvendo novos canais e dispositivos para isso.
A fala, como modo de interação mais consolidado, também impulsiona novas formas de comunicação. Produtos como Wispr Flow priorizam a fala como entrada principal (por sua alta densidade de informação e vantagens naturais), enquanto interfaces de fala silenciosa — que usam sensores para captar movimentos da língua e das cordas vocais, reconhecendo a fala sem som — representam uma modalidade de interação homem-máquina com maior densidade de informação.
Interfaces cérebro-máquina (invasivas e não invasivas) representam fronteiras mais profundas, com ecossistemas comerciais em desenvolvimento contínuo. Os sinais aparecem em validações clínicas, aprovações regulatórias, integrações de plataformas e investimentos institucionais — uma evolução de uma tecnologia que há poucos anos era exclusivamente acadêmica.
A percepção tátil também está entrando na arquitetura de IA corporificada, com alguns modelos de robótica começando a tratar o tato como uma capacidade fundamental. Interfaces olfativas estão se tornando produtos reais: dispositivos vestíveis com geradores de odores em miniatura, resposta em milissegundos, já demonstrados em aplicações de realidade mista; modelos de olfato também começam a ser combinados com sistemas de IA visual, para monitoramento de processos químicos.
O padrão comum dessas evoluções é que elas tendem a convergir em seus limites. Óculos de RA continuam gerando dados visuais e espaciais de interação usuário-ambiente; pulseiras EMG captam padrões de intenção motora; interfaces silenciosas de fala captam a relação entre atividade subglótica e fala; BCI de alta resolução decodificam atividade neural; sensores táteis captam dinâmica de contato físico. Cada novo dispositivo também funciona como uma plataforma de geração de dados, alimentando múltiplos modelos de aplicação.
Um robô treinado com dados de EMG para inferir intenções de movimento é diferente de um treinado apenas com dados de controle remoto; uma interface de laboratório que responde a comandos subglóticos é diferente de uma controlada por teclado; um decodificador neural treinado com alta densidade de dados BCI produz representações de planejamento de movimento que nenhum outro canal consegue fornecer.
A disseminação desses dispositivos expande o espaço de dados disponíveis para treinar sistemas de IA física avançados — e essa expansão é impulsionada em grande parte por empresas de consumo com forte capital, não apenas por laboratórios acadêmicos, fazendo o ciclo de dados acelerar junto com a adoção de mercado.
Primitiva 5: Sistemas de agentes em ciclo fechado
Por fim, uma primitiva mais relacionada à arquitetura: a capacidade de integrar percepção, raciocínio e ação em sistemas autônomos, contínuos e em ciclo fechado, operando por longos períodos sem intervenção humana.
No campo de modelos de linguagem, essa evolução é representada pelo surgimento de agentes inteligentes — cadeias de raciocínio múltiplo, uso de ferramentas, autoajuste — que elevam o modelo de uma ferramenta de perguntas e respostas a um solucionador autônomo de problemas. No mundo físico, uma transformação semelhante está em andamento, mas com requisitos muito mais rigorosos. Um agente de linguagem pode cometer erros e retroceder sem custo; um agente físico que derruba uma garrafa de reagentes não pode simplesmente desfazer o erro.
Os sistemas de agentes físicos têm três características que os diferenciam dos digitais.
Primeiro, eles precisam estar integrados a experimentos ou operações em ciclo fechado: conectados diretamente a fluxos de dados de instrumentos, sensores de estado físico e primitivas de execução, permitindo que o raciocínio seja aplicado à realidade física, e não apenas a descrições textuais.
Segundo, requerem persistência em sequências longas: memória, rastreamento de origem, monitoramento de segurança, recuperação de ações — conectando múltiplos ciclos de operação, não tratando cada tarefa como um episódio isolado.
Terceiro, precisam de adaptação em ciclo fechado: ajustar estratégias com base nos resultados físicos, e não apenas em feedback textual.
Essa primitiva integra capacidades independentes — bons modelos de mundo, arquiteturas confiáveis de ação, sensores diversos — formando um sistema completo capaz de operar de forma autônoma no mundo físico. É a camada de integração, cuja maturidade é condição prévia para que esses três campos possam ser implantados no mundo real, além de demonstrações isoladas de pesquisa.
Três áreas
As primitivas acima são camadas de habilitação universais; elas não determinam onde os principais aplicativos irão se consolidar. Muitos domínios envolvem ações físicas, medições físicas ou percepção física. A distinção entre «sistemas de ponta» e «apenas melhorias de sistemas existentes» está na profundidade do efeito de escala e na capacidade de gerar efeitos de retroalimentação exponencial — não apenas desempenho melhor, mas surgimento de novas capacidades antes impossíveis.
Robótica, ciência impulsionada por IA, e novas interfaces homem-máquina são esses três domínios com maior efeito de retroalimentação. Cada um combina primitivas de forma única, cada um está atualmente limitado pelas restrições que as primitivas estão eliminando, e cada um gera como subproduto uma quantidade de dados físicos estruturados — que, por sua vez, alimentam melhorias nas primitivas, formando ciclos de feedback que aceleram o sistema como um todo. Não são os únicos campos de IA física relevantes, mas são os mais densos em interação com a realidade física, e também os mais distantes do paradigma de linguagem/código atual, com maior potencial de surgimento de novas capacidades — além de serem altamente complementares e capazes de se beneficiar dos seus dividendos.
Robótica
Robótica é a manifestação mais literal de IA física: um sistema de IA que precisa perceber, raciocinar e exercer ações físicas no mundo material em tempo real. Ela também testa todas as primitivas.
Imagine quanto um robô universal precisa fazer para empilhar uma toalha. Precisa de uma representação aprendida de como materiais deformáveis se comportam sob força — um prior físico que a pré-visualização por linguagem não fornece. Precisa de uma arquitetura de controle que traduza comandos de alto nível em sequências contínuas de movimento a mais de 20 Hz.
Necessita de dados de treinamento gerados por simulação, pois ninguém coletou milhões de demonstrações reais de empilhamento de toalhas. Precisa de feedback tátil para detectar escorregamento e ajustar a força de pegada, pois a visão não consegue distinguir uma pegada firme de uma instável. Precisa de um controlador em ciclo fechado que identifique erros ao empilhar errado e recupere, ao invés de seguir cegamente uma trajetória memorizada.
Por que a robótica é um sistema de ponta, e não uma disciplina de engenharia madura? Essas primitivas não são melhorias em capacidades existentes, mas desbloqueios de categorias de operação, movimento e interação que estavam fora do alcance além de ambientes industriais controlados.
Nos últimos anos, houve avanços significativos — já escrevemos sobre isso. A primeira geração de VLA mostrou que modelos de base podem controlar robôs para tarefas variadas. Avanços na arquitetura conectaram raciocínio de alto nível e controle de baixo nível. Raciocínio no dispositivo final tornou-se viável, e a transferência entre diferentes plataformas de robôs é possível com poucos dados. O desafio central ainda é a confiabilidade em escala, que limita a implantação. Uma taxa de sucesso de 95% por passo, em uma cadeia de 10 passos, ainda é insuficiente para ambientes de produção. O aprendizado por reforço pós-treinamento tem potencial para ajudar a superar esses obstáculos, elevando a robustez e a escala.
Esses avanços impactam a estrutura de mercado. Por décadas, o valor da robótica residiu na máquina física — que continua sendo uma peça-chave. Mas, com estratégias de aprendizado mais padronizadas, o valor migra para modelos, infraestrutura de treinamento e ciclos de dados. Cada trajetória real de um robô é uma oportunidade de melhorar o modelo de mundo, preencher lacunas de simulação, ou ampliar a diversidade de experiências físicas disponíveis para pré-treinamento. Robótica é tanto consumidora quanto geradora de sinais de melhoria para as primitivas, formando um ciclo de retroalimentação que acelera o avanço do sistema.
Ciência autônoma
Se robótica testa primitivas com ações físicas em tempo real, a ciência autônoma avalia a capacidade de raciocínio contínuo sobre sistemas físicos complexos — com duração de horas ou dias, interpretando resultados, ajustando estratégias e conduzindo experimentos de forma autônoma.
A IA na ciência é o campo de combinação de primitivas mais completo. Um laboratório autônomo (self-driving lab, SDL) precisa aprender representações de dinâmica física-química para prever resultados; usar ações corporais para manipular líquidos, posicionar amostras e operar instrumentos; gerar simulações para pré-seleção de experimentos e otimizar uso de equipamentos escassos; ampliar canais sensoriais — espectroscopia, cromatografia, espectrometria de massa, além de sensores químicos e biológicos — para caracterizar resultados.
Mais do que qualquer outro campo, a ciência autônoma exige uma orquestração de primitivas em ciclo fechado: manter fluxos de trabalho de hipóteses, experimentos, análises e ajustes sem intervenção humana, com rastreabilidade, monitoramento de segurança e adaptação contínua às descobertas.
Nenhum outro domínio utiliza essas primitivas de forma tão profunda. É por isso que a ciência autônoma é um sistema de ponta, e não uma automação laboratorial mais eficiente. Empresas como Periodic Labs e Medra combinam capacidades de raciocínio científico e validação física, acelerando a inovação e gerando dados de treinamento para experimentos.
O valor dessas plataformas é intuitivamente claro. A descoberta de novos materiais, que leva anos para chegar ao mercado, pode ser acelerada por IA — potencialmente reduzindo esse tempo drasticamente. A restrição principal passa de geração de hipóteses (que modelos podem auxiliar bem) para fabricação e validação (que requerem instrumentos físicos, robótica e ciclo fechado). O SDL é uma resposta direta a esse gargalo.
Outra característica fundamental da ciência autônoma — válida para todos os sistemas físicos — é seu papel como motor de dados: cada experimento gera não só um resultado científico, mas um sinal de treinamento validado, com aplicação direta na modelagem física.
Por exemplo, uma medição de como um polímero cristaliza sob certas condições enriquece o modelo de materiais; uma rota sintética validada vira dado de raciocínio físico; uma falha observada informa onde o modelo de previsão falha. Dados de um cientista de IA que realiza experimentos reais são estruturados, causais e validados empiricamente — exatamente o tipo de dado que modelos de raciocínio físico mais precisam e que não é facilmente obtido de outras fontes. A ciência autônoma transforma a realidade física em conhecimento estruturado, alimentando o ecossistema de IA física.
Novos interfaces
Robôs estendem IA às ações físicas, ciência autônoma estende IA à pesquisa física, e novas interfaces conectam IA à percepção, sensação e sinais corporais humanos — de óculos de RA a wearables neurais implantáveis.
O que une esses dispositivos não é uma tecnologia única, mas uma função comum: ampliar a largura de banda e os modos de comunicação entre a inteligência humana e os sistemas de IA — gerando dados de interação humano-mundo que podem ser usados na construção de IA física.
A distância do paradigma principal é tanto um desafio quanto uma oportunidade. Modelos de linguagem entendem esses modos de percepção em nível conceitual, mas não dominam naturalmente