12 de abril de 2026

RAG em 3 camadas — o que separa um protótipo de um sistema confiável

Maioria dos tutoriais para no chunking + embeddings + retrieval. Em produção, isso é só a primeira camada — e geralmente a menos importante.

RAGLLMArquitetura

A versão de tutorial

Quase todo material introdutório sobre Retrieval-Augmented Generation segue o mesmo roteiro: divida o documento em pedaços, gere embeddings, salve em um banco vetorial, recupere top-k por similaridade, jogue no prompt do LLM.

Esse pipeline funciona em demos. Falha em produção pelos motivos mais previsíveis: documentos heterogêneos, perguntas ambíguas, alucinação confiante, e a impossibilidade de auditar de onde veio cada resposta.

Camada 1 — Recuperação

Não é só similaridade vetorial. Em sistemas reais, você quer:

Filtros estruturais combinados com a busca semântica: "documentos do cliente X, depois de Y, do tipo Z".
Recuperação híbrida (semântica + keyword) — embeddings perdem termos exatos como números de processo, CPFs, datas.
Reranking com um modelo dedicado depois do top-k. Embeddings são bons em "tema parecido", ruins em "responde a pergunta exata".

Camada 2 — Raciocínio

O LLM não recebe os trechos puros. Recebe um plano:

Sumarização hierárquica quando os documentos são grandes — resume por seção, depois agrupa.
Acumulação — registra a justificativa de cada passo para que um humano possa revisar a cadeia.
Decomposição da pergunta — "Qual foi o impacto financeiro do incidente X?" vira três sub-perguntas que recuperam evidências separadas antes da síntese final.

Camada 3 — Validação

A camada mais negligenciada. O sistema não pode entregar uma resposta sem checar se ela é defensável:

LLM-as-a-judge — segundo modelo (ou segunda chamada com prompt diferente) verifica se a resposta está apoiada nas evidências citadas.
Citação obrigatória — toda afirmação carrega o trecho-fonte; respostas sem âncora são rejeitadas.
Fallback explícito — quando o sistema não tem confiança, ele diz "não sei" em vez de inventar. Isso é projeto, não bug.

Por que isso importa

Um RAG de tutorial te dá uma demo bonita para LinkedIn. Um RAG de três camadas é o que aguenta dezenas de milhares de documentos, audiência crítica e responsabilidade jurídica.

A diferença entre os dois não é o banco vetorial. É a disciplina nas camadas 2 e 3.

Quer trocar uma ideia sobre isso?

Sessão de 30 minutos sem custo para entender o seu problema.

Conversar