AI Harness na Prática: operando uma empresa com agentes

A maioria das empresas usa IA como ferramenta isolada. Um chat aqui, um copilot ali, uma automação acolá. Ferramentas que não conversam entre si, que não lembram o que fizeram ontem, que não sabem o que o colega ao lado está fazendo. Isso não é usar IA. É colecionar IA.

O que separa uso casual de uso operacional é o harness — a infraestrutura que conecta, orquestra e governa os agentes de IA em um sistema coerente. É o que transforma ferramentas soltas em um sistema operacional. Na Capiva, construímos um. E ele roda em produção todo dia.

O que é AI Harness (e por que o modelo sozinho não basta)

Mitchell Hashimoto — criador do Terraform e um dos engenheiros de infraestrutura mais respeitados da indústria — formalizou o conceito em fevereiro de 2026: Agent = Model + Harness. O modelo é o cérebro. O harness é todo o resto: ferramentas conectadas, memória persistente, regras de execução, guardrails, feedback loops, observabilidade.

Martin Fowler e Birgitta Böckeler, da Thoughtworks, levaram adiante com a taxonomia de guides and sensors — guides são as regras que direcionam o agente (o que fazer, o que não fazer), sensors são os mecanismos que detectam quando algo sai do esperado. Todo harness robusto precisa dos dois.

Isso não é teoria. A Deloitte reporta que 88% das empresas usam IA, mas só 29% conseguem ROI real. O gap é exatamente o harness. As empresas têm modelos. Não têm o sistema em volta.

A arquitetura que roda na Capiva

Cada componente existe por um motivo operacional específico. Nada foi adicionado por curiosidade técnica. Descrevemos cada peça em essência — as ferramentas específicas que usamos hoje são intercambiáveis, e é justamente essa a característica de um harness bem projetado: o padrão sobrevive à troca de qualquer ferramenta. Um harness na sua empresa usa o SEU stack.

Claude Code CLI como interface primária

A maioria das pessoas usa IA em uma janela de chat no browser. Isso funciona para perguntas isoladas. Para trabalho contínuo — pesquisa, criação de conteúdo, código, análise, gestão de projetos — é insuficiente.

Claude Code é uma interface de linha de comando que integra diretamente com o filesystem, controle de versão, ferramentas de desenvolvimento e automação. O agente não está numa caixa. Está dentro do ambiente de trabalho. Lê arquivos, edita código, executa comandos, cria artefatos. A barreira entre "pedir para a IA" e "a IA fazer" desaparece.

Base de conhecimento como hierarquia de documentos

A base de conhecimento da Capiva não é um software — é um sistema de arquivos: milhares de documentos em texto plano (markdown), organizados por domínio, com metadata estruturada e mapas de conteúdo para navegação conceitual. Cada documento é indexável, linkável e pesquisável. Versionado por git. Nenhuma ferramenta proprietária no caminho: o agente lê a pasta diretamente.

Isso resolve um problema que toda empresa tem: conhecimento distribuído em 15 ferramentas diferentes, sem conexão entre elas. Numa hierarquia de documentos, tudo está em um lugar — decisões, transcripts de reuniões, especificações, aprendizados, estado de projetos — e qualquer editor serve para ler. O que importa não é o app; é o formato aberto e a estrutura. Texto plano estruturado é o denominador comum que toda IA e todo stack entendem.

Em junho de 2026, a Google Cloud publicou o Open Knowledge Format (OKF), spec aberta que formaliza exatamente esse padrão — o LLM-wiki pattern — como formato portátil de contexto curado para agentes. O harness da Capiva já rodava o padrão em produção antes da publicação. Não seguimos o framework; convergimos com ele — é o que acontece quando se projeta por padrões, não por ferramentas.

Busca híbrida: três técnicas em conjunto

Keyword search encontra o que você sabe que procura. Busca semântica encontra o que é relevante mesmo quando você não sabe as palavras certas. Um harness maduro combina as duas — e adiciona uma terceira camada de julgamento.

A recuperação de contexto na Capiva soma três técnicas que trabalham juntas: ranking por keywords (BM25) para precisão, embeddings vetoriais para similaridade semântica, e re-ranking por LLM para ordenar por relevância real à pergunta. O resultado: quando o agente precisa de contexto, encontra em segundos o documento certo entre milhares.

Isso é context engineering aplicado — o agente recebe o contexto certo, no momento certo, sem sobrecarregar a janela de atenção. As três técnicas são padrões abertos da indústria: qualquer stack as implementa.

MCP: a camada de integração

Model Context Protocol é o padrão que permite ao agente usar ferramentas externas nativamente. Não é copy-paste. Não é "cole o resultado aqui". O agente chama a ferramenta, recebe o resultado e continua trabalhando.

Na prática: o agente conecta diretamente a automação de workflows, testes de interface no browser, transcrição de reuniões, documentação técnica atualizada, mensageria. Cada MCP server adiciona uma capacidade real ao harness — e como MCP é um padrão aberto (hoje sob a Linux Foundation), a ferramenta atrás de cada capacidade é substituível sem tocar no resto do sistema.

A analogia de Hashimoto é USB-C: um padrão de conexão que permite plugar qualquer ferramenta sem reescrever a integração.

Agentes autônomos agendados

O harness não depende de interação humana constante. Agentes headless rodam em background, em ciclos agendados, executando trabalho real sem ninguém na frente da tela:

Compilação de conhecimento: um agente processa continuamente as notas novas da base — resume, extrai entidades e conceitos, conecta ao que já existe. Roda em cadeia até terminar, retoma sozinho depois de falhas e rate limits, e se desliga quando o trabalho acaba.
Síntese editorial: duas vezes por dia, uma "redação" de agentes lê o corpus inteiro e produz um briefing do que é mais relevante para o negócio — não o mais recente, o mais central.
Autocorreção: cada erro identificado vira regra ou verificação permanente no próprio harness. O sistema acumula disciplina em vez de repetir falhas.

O padrão de resiliência importa mais que a sofisticação: registro incremental de progresso (nada se perde se um agente morre no meio), watchdogs que reiniciam cadeias travadas, e guards que impedem execução duplicada. A ideia central: o que pode ser automatizado não deveria consumir atenção humana. O que exige julgamento humano recebe atenção humana total.

Memória persistente entre sessões

Cada sessão de trabalho produz contexto. Na maioria dos setups, esse contexto se perde quando a janela fecha. No harness, ele persiste.

O sistema mantém memória em múltiplas camadas: working memory (estado da sessão atual), auto memory (preferências, decisões, padrões que se acumulam), e vault (conhecimento permanente). Quando uma sessão nova começa, o agente sabe o que aconteceu antes.

Isso é o equivalente organizacional de um funcionário que nunca esquece o que foi discutido em reuniões anteriores. O contexto nunca se perde.

Skills como workflows replicáveis

Em vez de escrever prompts longos toda vez que precisa de uma tarefa recorrente, skills codificam o processo inteiro: objetivo, passos, template de output, constraints. Um comando dispara todo o workflow.

Skills para pesquisa, captura de ideias, criação de conteúdo, processamento de inbox, análise de transcripts — cada um é um processo padronizado e replicável. O equivalente de SOPs, mas executáveis por IA.

Automação de workflows externa

Nem todo processo cabe dentro de uma sessão de agente. Workflows que envolvem múltiplos sistemas — emails, webhooks, APIs, databases — rodam em uma camada de automação externa conectada via MCP, permitindo que o agente dispare, monitore e consuma resultados. A ferramenta específica importa menos que o padrão: a Capiva já trocou a ferramenta dessa camada uma vez sem afetar nenhuma outra parte do harness. A arquitetura sobrevive à troca — que é exatamente o ponto.

Guides and sensors: a governança do harness

A taxonomia de Fowler se aplica diretamente.

Guides (direcionam o comportamento):

Regras de operação da base de conhecimento (onde criar, como nomear, como linkar)
Protocolo de aprovação (quando perguntar, quando executar)
Qualidade de pensamento (verificar antes de construir, challenger behavior)
Board-first (todo trabalho passa pelo task board antes de execução)

Sensors (detectam desvios):

Auditoria diária automatizada do próprio sistema
Verificação de task board (todo agente que completa uma tarefa atualiza o board)
Quality gates entre fases (propor antes de executar)
Hooks de feedback que capturam correções e as tornam permanentes

O princípio de Hashimoto em ação: cada erro vira um fix no harness para que nunca se repita. O sistema melhora a cada ciclo.

O resultado operacional

Um fundador operando com AI Harness produz output equivalente a uma equipe tradicional de consultoria. Projetos simultâneos no Brasil, EUA e UK. Múltiplos produtos construídos e mantidos em paralelo. Pipeline de conteúdo, ferramentas de diagnóstico e trabalho com clientes — tudo rodando ao mesmo tempo.

Não porque trabalha mais. Porque o sistema amplifica cada hora de trabalho humano com automação, contexto persistente e execução autônoma.

Em implementação como Centro de Excelência em IA para empresa Fortune 500 global, essa mesma abordagem comprimiu ciclos de projeto de 6 meses para 2 semanas. A velocidade de entrega se tornou referência interna para outros times da organização.

Abrimos o código de uma parte do harness: capivaOS

Tudo que este artigo descreve é o harness que opera o negócio da Capiva — conhecimento, agentes, memória, automação. Mas existe uma camada dele que resolvia o problema mais universal de quem desenvolve com IA: agentes escrevem código plausível, não código correto — e disciplina de engenharia não se sustenta por prompt.

Essa camada nós extraímos, generalizamos e publicamos como capivaOS — um harness de desenvolvimento spec-driven para Claude Code, open-source (MIT), instalado como plugin:

Máquina de estados com gates mecânicos: spec → plano → implementação → verificação → entrega. Hooks bloqueiam escrita fora de fase, merge sem spec, transição sem quality gate. A disciplina não depende do prompt — é imposta pela infraestrutura. Guides and sensors, literalmente executáveis.
Cadeia de artefatos: cada fase produz outputs auditáveis (spec + critérios de aceite, plano, relatórios de qualidade). Rastreabilidade de ponta a ponta.
Quality gates numéricos: pisos de cobertura de teste (75–80%), zero warnings novos de linter, blueprints por stack (.NET, Python/FastAPI, Next.js).

/plugin marketplace add iB2/capivaOS
/capiva:init

Repositório: github.com/iB2/capivaOS. Construído nos mesmos princípios deste artigo — e usado pela Capiva nos próprios projetos, todos os dias.

O que isso significa para sua empresa

O harness completo — o sistema que opera uma empresa — não é um produto de prateleira. É uma arquitetura que se constrói, porque cada operação tem ferramentas, processos e constraints diferentes. Mas a camada de disciplina de desenvolvimento agora é: o capivaOS é gratuito, aberto e instalável em 30 segundos.

Os padrões são acessíveis: documentos estruturados, busca híbrida, MCP, agentes agendados, quality gates. O desafio não é acesso a ferramentas — é saber conectar os padrões em um sistema que funciona, que se auto-melhora e que escala sem adicionar pessoas. Com as ferramentas que a SUA operação já usa.

Esse é o trabalho que a Capiva faz. Desenhamos e implementamos AI Harnesses para operações que querem sair de "usamos IA" para "IA opera nossa empresa."

Como implementamos isso em empresas

O caminho que usamos com clientes segue a mesma lógica deste artigo — padrões primeiro, ferramentas depois:

Diagnóstico estratégico — mapear onde o harness gera mais alavancagem na sua operação: quais processos, qual conhecimento, quais gargalos de contexto.
Innovation Sprint — provar o conceito num escopo curto: um harness mínimo rodando num processo real, com resultado mensurável antes de qualquer aposta grande.
Implementação embarcada — nosso modelo de trabalho é dentro do seu time, não como consultoria externa: construímos o sistema, subimos a infraestrutura, habilitamos as pessoas e ficamos até rodar. Como fazemos isso está detalhado em How We Work.

Para desenvolvimento de software, o ponto de partida é gratuito: capivaOS no seu repositório, hoje.

Quer construir um AI Harness para sua operação?

A Capiva desenha e implementa AI Harnesses sob medida. O primeiro passo é um Diagnóstico Estratégico que mapeia onde IA cria valor na sua operação.

Conversar sobre AI Harness

Harness engineering para empresas brasileiras: o que você precisa saber

Harness engineering é a disciplina de projetar a infraestrutura completa em volta de agentes de IA para que operem de forma confiável em ambiente de produção. O conceito foi formalizado por Mitchell Hashimoto em fevereiro de 2026, com a fórmula Agent = Model + Harness. Martin Fowler e Birgitta Böckeler da Thoughtworks expandiram com a taxonomia de guides (regras que direcionam comportamento) e sensors (mecanismos que detectam desvios). Um harness operacional inclui: ferramentas conectadas via MCP (Model Context Protocol), memória persistente entre sessões, knowledge management estruturado, agentes autônomos para tarefas operacionais, workflows codificados como skills replicáveis, e loops de feedback que convertem erros em melhorias permanentes. A Deloitte reporta que 88% das empresas usam IA mas apenas 29% obtêm retorno real. A diferença é o harness. No Brasil, a adoção de harness engineering é praticamente inexistente, representando uma janela competitiva para empresas que se estruturarem primeiro. Para desenvolvimento de software, a referência open-source é o capivaOS (github.com/iB2/capivaOS), harness spec-driven para Claude Code publicado pela Capiva sob licença MIT, que impõe pipeline de fases com quality gates mecânicos: especificação, plano, implementação, verificação e entrega. Para a camada de conhecimento, o padrão de referência é o Open Knowledge Format (OKF), spec aberta publicada pela Google Cloud em junho de 2026 que formaliza o LLM-wiki pattern como formato de contexto curado para agentes; o harness da Capiva opera esse padrão em produção desde antes da publicação da spec.

AI Harness na Prática: o sistema que opera uma boutique de IA como enterprise