12 de abril de 2026
RAG em 3 camadas — o que separa um protótipo de um sistema confiável
Maioria dos tutoriais para no chunking + embeddings + retrieval. Em produção, isso é só a primeira camada — e geralmente a menos importante.
A versão de tutorial
Quase todo material introdutório sobre Retrieval-Augmented Generation segue o mesmo roteiro: divida o documento em pedaços, gere embeddings, salve em um banco vetorial, recupere top-k por similaridade, jogue no prompt do LLM.
Esse pipeline funciona em demos. Falha em produção pelos motivos mais previsíveis: documentos heterogêneos, perguntas ambíguas, alucinação confiante, e a impossibilidade de auditar de onde veio cada resposta.
Camada 1 — Recuperação
Não é só similaridade vetorial. Em sistemas reais, você quer:
- Filtros estruturais combinados com a busca semântica: "documentos do cliente X, depois de Y, do tipo Z".
- Recuperação híbrida (semântica + keyword) — embeddings perdem termos exatos como números de processo, CPFs, datas.
- Reranking com um modelo dedicado depois do top-k. Embeddings são bons em "tema parecido", ruins em "responde a pergunta exata".
Camada 2 — Raciocínio
O LLM não recebe os trechos puros. Recebe um plano:
- Sumarização hierárquica quando os documentos são grandes — resume por seção, depois agrupa.
- Acumulação — registra a justificativa de cada passo para que um humano possa revisar a cadeia.
- Decomposição da pergunta — "Qual foi o impacto financeiro do incidente X?" vira três sub-perguntas que recuperam evidências separadas antes da síntese final.
Camada 3 — Validação
A camada mais negligenciada. O sistema não pode entregar uma resposta sem checar se ela é defensável:
- LLM-as-a-judge — segundo modelo (ou segunda chamada com prompt diferente) verifica se a resposta está apoiada nas evidências citadas.
- Citação obrigatória — toda afirmação carrega o trecho-fonte; respostas sem âncora são rejeitadas.
- Fallback explícito — quando o sistema não tem confiança, ele diz "não sei" em vez de inventar. Isso é projeto, não bug.
Por que isso importa
Um RAG de tutorial te dá uma demo bonita para LinkedIn. Um RAG de três camadas é o que aguenta dezenas de milhares de documentos, audiência crítica e responsabilidade jurídica.
A diferença entre os dois não é o banco vetorial. É a disciplina nas camadas 2 e 3.
Quer trocar uma ideia sobre isso?
Sessão de 30 minutos sem custo para entender o seu problema.
Conversar