Módulo 2.1 — Clonando a Si Mesmo: Agentes e Cache

🔄 Standard Mode — Agente novo com zero contexto

O modo Standard cria um agente completamente independente. Ele não herda nada do pai — nem contexto, nem conversa, nem memória de sessão. Você escreve o prompt completo do zero, e ele executa sozinho. É o modo ideal para pesquisa e exploração, quando você quer um agente que comece limpo.

Diagrama dos modos de agentes do Claude Code

Visão geral dos três modos de agentes: Standard, Fork e Teammate.

Como Funciona o Standard Mode

●

Zero contexto herdado — o agente nasce vazio, sem saber nada da conversa do pai

●

Prompt completo fornecido por você — você define exatamente o que o agente deve fazer

●

Independência total — não compartilha cache, tokens ou estado com outros agentes

●

Ideal para exploração — quando você quer investigar algo sem poluir o contexto principal

💡 Quando Usar Standard

Use Standard quando a tarefa é autocontida e não depende do que você já conversou. Exemplos: "pesquise como funciona X na codebase", "analise este arquivo isoladamente", "gere testes para esta função". O custo é maior porque não há cache compartilhado, mas a independência compensa quando você precisa de resultados limpos.

🔀 Fork Mode — Filho que herda todo o contexto do pai

O Fork Mode é onde a mágica acontece. O agente filho recebe uma cópia exata de toda a conversa do pai. Como o prefixo de bytes é idêntico, o cache da API é compartilhado automaticamente — tornando múltiplos forks quase gratuitos em termos de custo.

Como Funciona o Fork Mode

●

Herança total de contexto — o filho recebe a conversa inteira do pai, byte a byte

●

Prefixo idêntico em bytes — como os bytes iniciais são iguais, a API reconhece o cache e não cobra novamente

●

Cache compartilhado — múltiplos forks do mesmo pai pagam apenas pelos tokens novos (a divergência)

●

Ideal para perguntas paralelas — faça 5 perguntas diferentes sobre o mesmo contexto simultaneamente

📊 Economia Real do Fork

●

Sem fork: 3 perguntas separadas = 3x o custo total (cada uma paga o contexto inteiro)

●

Com fork: 3 forks do mesmo pai = ~1.1x o custo (prefixo cacheado, paga só a divergência)

●

Economia cresce com o contexto: quanto maior a conversa do pai, maior o benefício do cache

●

Latência menor: tokens cacheados são processados mais rapidamente pela API

👥 Teammate Mode — Processo separado com poder total

O Teammate Mode é o mais poderoso e o mais pesado. Ele cria um processo Claude Code completamente separado em um painel tmux ou iTerm2. Isolamento total, acesso total a ferramentas, sem limitações de subagente. É como ter outro desenvolvedor ao seu lado.

Como Funciona o Teammate Mode

●

Processo separado — roda em painel tmux ou tab iTerm2, independente do processo pai

●

Isolamento total — memória, contexto e estado completamente separados

●

Poder total — acessa todas as ferramentas sem restrições de subagente

●

Ideal para enxames — múltiplos teammates trabalhando em partes diferentes do projeto simultaneamente

💡 Teammate na Prática

Use Teammate quando você precisa de um agente que possa fazer tudo — inclusive criar subagentes próprios, gerenciar arquivos complexos ou executar sequências longas de comandos. O custo é o mais alto dos três modos (sem cache compartilhado e overhead de processo), mas a capacidade compensa para tarefas que exigem autonomia total. Configure tmux com painéis nomeados para acompanhar cada teammate.

💰 O Truque do Cache — O molho secreto dos agentes paralelos

O cache de prompt é o que torna o Fork Mode economicamente viável. Sem ele, criar 5 agentes paralelos custaria 5x. Com ele, custa pouco mais que 1x. Entender como o cache funciona é a diferença entre gastar $50/dia e $15/dia fazendo o mesmo trabalho.

Como o cache de prompt funciona com agentes fork — prefixo compartilhado reduz custo drasticamente.

Como o Cache Funciona

●

Prefixo idêntico em bytes — a API da Anthropic cacheia por prefixo exato de bytes na requisição

●

Fork herda byte a byte — como o contexto do filho é cópia exata do pai, o prefixo bate perfeitamente

●

Tokens cacheados custam 90% menos — a API cobra uma fração para tokens que já foram processados

●

Cache tem TTL de 5 minutos — forks precisam ser criados dentro dessa janela para aproveitar o cache

📊 Números Reais de Custo

●

Sem cache: 3 agentes Standard fazendo perguntas similares = 3x custo total do contexto

●

Com cache (Fork): 3 forks do mesmo pai = ~1x custo (prefixo cacheado em todos)

●

Economia por fork adicional: cada novo fork paga apenas pelos tokens que divergem do pai

●

Latência reduzida: tokens cacheados são servidos mais rapidamente, acelerando o tempo de resposta

🎯 Escolhendo o Modo — Quando usar cada tipo de agente

Cada modo de agente resolve um problema diferente. Escolher errado significa pagar mais por menos, ou ter menos capacidade do que precisa. Use esta tabela como referência rápida para decisões do dia a dia.

Guia de Decisão Rápida

●

Standard para exploração — tarefa autocontida, não depende do contexto atual, pesquisa independente

●

Fork para paralelo barato — múltiplas perguntas sobre o mesmo contexto, economia de custo via cache

●

Teammate para enxames — tarefas que exigem autonomia total, acesso irrestrito a ferramentas, longa duração

●

Regra de ouro: comece com Fork (mais barato), suba para Teammate apenas quando necessário

Fazer

✓ Usar Fork para perguntas paralelas sobre o mesmo contexto
✓ Criar forks dentro da janela de 5 minutos do cache
✓ Usar Standard quando o contexto do pai é irrelevante
✓ Reservar Teammate para tarefas que exigem autonomia total

Evitar

✗ Usar Standard quando Fork seria mais barato para o mesmo resultado
✗ Criar Teammate para tarefas simples que um Fork resolve
✗ Esperar mais de 5 minutos entre forks (cache expira)
✗ Criar dezenas de teammates simultâneos sem necessidade real

⚡ AsyncLocalStorage — Isolamento de contexto para agentes in-process

Enquanto Standard, Fork e Teammate criam processos separados, o Claude Code também usa AsyncLocalStorage internamente para isolar contexto entre agentes que rodam dentro do mesmo processo. É leve, sem overhead de criação de processo, e garante que cada agente tenha seu próprio estado.

Como Funciona o AsyncLocalStorage

●

Isolamento in-process — cada agente tem seu próprio "escopo" de variáveis dentro do mesmo processo Node/Bun

●

Sem overhead de processo — não cria processos novos, usa o event loop existente

●

Propagação automática — o contexto segue automaticamente através de callbacks e Promises

●

API nativa do Node.js — usa async_hooks.AsyncLocalStorage para manter estado por chain assíncrona

💡 Por Que Isso Importa Para Você

O AsyncLocalStorage é o que permite ao Claude Code rodar subagentes sem criar processos pesados. Quando você usa a ferramenta Agent internamente, cada instância tem seu próprio contexto isolado — logs, estado de conversa e resultados de ferramentas não se misturam entre agentes. Isso significa que agentes in-process são rápidos de criar e destruir, tornando-os ideais para tarefas curtas e paralelas que não justificam o custo de um Fork ou Teammate.

📋 Resumo do Módulo

✓ Standard Mode cria agentes independentes com zero contexto herdado — ideal para exploração

✓ Fork Mode herda todo o contexto do pai e compartilha cache — o modo mais econômico para paralelo

✓ Teammate Mode roda em processo separado com poder total — para enxames multi-agente

✓ O cache de prompt reduz custo de forks de 3x para ~1x via prefixo idêntico em bytes

✓ Escolha o modo certo: Fork para paralelo barato, Standard para exploração, Teammate para autonomia

✓ AsyncLocalStorage permite agentes in-process leves sem overhead de criação de processo

Próximo Módulo:

2.2 - 🛡️ A Fortaleza

← Voltar para Trilha Próximo Módulo →