RAG na prática: como dar memória e conhecimento próprio à sua aplicação de IA

Um dos limites mais frustrantes dos modelos de linguagem é o knowledge cutoff — o modelo não sabe nada sobre eventos depois da data de treinamento, não conhece os documentos internos da sua empresa, não tem acesso às suas políticas, manuais ou base de conhecimento proprietária. RAG (Retrieval-Augmented Generation) resolve esse problema de forma elegante: em vez de retreinar o modelo (caro, lento, impraticável), você constrói um sistema que busca os documentos relevantes em uma base vetorial e os injeta no contexto da conversa antes que o modelo responda. O resultado é uma IA que “sabe” tudo que você colocou na base — e se mantém atualizada conforme os documentos são adicionados.

Como RAG funciona passo a passo

O pipeline básico tem duas fases. Indexação (feita uma vez, atualizada conforme necessário): os documentos são divididos em chunks (pedaços de 500-1000 tokens), cada chunk é transformado em um vetor numérico por um modelo de embedding, e os vetores são armazenados em um banco vetorial (Pinecone, Weaviate, pgvector, Chroma). Recuperação e geração (feita a cada consulta): a pergunta do usuário é transformada em vetor, uma busca por similaridade coseno encontra os chunks mais relevantes, esses chunks são inseridos no prompt como contexto, e o modelo responde baseado nesse contexto injetado. O modelo não “memoriza” os documentos — ele os lê na hora da resposta.

RAG vs Fine-tuning: quando usar cada um

RAG é adequado quando: o conhecimento muda frequentemente (base de produtos, documentação técnica, políticas), o volume de informação é grande demais para caber no contexto, e você precisa que a fonte de cada resposta seja rastreável. Fine-tuning é adequado quando: você precisa mudar o estilo ou tom de resposta do modelo, ensinar um formato de output específico, ou internalizar conhecimento que raramente muda. Para a maioria dos casos de uso empresariais (chatbot de atendimento, assistente de documentação, Q&A sobre manuais), RAG é mais rápido, mais barato e mais fácil de manter que fine-tuning.

Técnicas avançadas para melhorar qualidade

Chunking estratégico: dividir por seção semântica (parágrafo, seção de documento) em vez de por tamanho fixo melhora a relevância dos chunks recuperados. Hybrid search: combinar busca vetorial (semântica) com busca por keywords (BM25) captura tanto similaridade conceitual quanto correspondência exata de termos técnicos. Reranking: usar um modelo cross-encoder para re-ordenar os N chunks recuperados antes de enviar ao LLM melhora significativamente a qualidade. Metadata filtering: filtrar chunks por metadados (data, departamento, tipo de documento) antes da busca vetorial reduz ruído e melhora precisão.

Stack recomendado para começar

Para um projeto RAG em Python: LangChain ou LlamaIndex para orquestração do pipeline, pgvector (extensão do PostgreSQL) para armazenamento vetorial sem adicionar um novo banco de dados, OpenAI text-embedding-3-small ou sentence-transformers para embeddings, e Claude ou GPT-4o para geração. Esse stack é rodável localmente para desenvolvimento e escala para produção sem mudança de arquitetura. Com LangChain, um pipeline RAG funcional pode ser construído em menos de 100 linhas de código.