RAG na prática: como criar um chatbot que responde com base nos seus documentos

Large Language Models como GPT-4 e Claude são impressionantes, mas eles não conhecem seus documentos internos, manuais de produto, ou base de conhecimento empresarial. RAG — Retrieval-Augmented Generation — resolve isso: em vez de confiar apenas na memória do modelo, o sistema busca informações relevantes nos seus documentos e as inclui no prompt, garantindo respostas precisas, atualizadas e referenciáveis.

Como RAG funciona

O pipeline RAG tem três etapas: indexação, retrieval e generation. Na indexação, seus documentos são divididos em chunks (pedaços de texto, tipicamente 500-1000 tokens), cada chunk é convertido em um vetor numérico (embedding) que captura seu significado semântico, e esses vetores são armazenados em um banco vetorial. No retrieval, a pergunta do usuário também é convertida em embedding e comparada por similaridade com os chunks indexados — os mais similares são recuperados. Na generation, os chunks relevantes são incluídos no prompt do LLM como contexto, e o modelo gera uma resposta baseada nesse contexto.

A magia está nos embeddings: textos com significado similar ficam próximos no espaço vetorial, mesmo usando palavras diferentes. “Como fazer deploy no Kubernetes” e “procedimento para publicar aplicação em cluster K8s” geram embeddings similares, permitindo que a busca encontre documentos relevantes independente da terminologia exata usada na pergunta.

Escolhendo componentes

Para embeddings, os modelos da OpenAI (text-embedding-3-small) são simples de usar. Alternativas open-source como sentence-transformers (all-MiniLM-L6-v2) rodam localmente sem custo. Para o banco vetorial, ChromaDB é a opção mais simples (roda em memória, zero config), Pinecone é managed e escala sem dor, e pgvector transforma seu PostgreSQL existente em banco vetorial sem infraestrutura adicional.

Para o LLM de geração, GPT-4o oferece a melhor qualidade, Claude 3.5 Sonnet é excelente para raciocínio complexo, e modelos open-source como Llama 3 via Ollama permitem rodar tudo localmente com privacidade total. O framework LangChain ou LlamaIndex orquestra o pipeline completo: carrega documentos, faz chunking, gera embeddings, armazena, busca e gera respostas — com dezenas de integrações prontas.

Chunking estratégico

A qualidade do RAG depende diretamente da qualidade do chunking. Chunks muito grandes diluem a informação relevante com contexto desnecessário. Chunks muito pequenos perdem contexto e geram respostas fragmentadas. A estratégia ideal depende do tipo de documento: para documentação técnica, divida por seções e subseções mantendo headers como metadado. Para contratos e documentos legais, divida por cláusulas. Para FAQs, cada pergunta-resposta é um chunk natural.

Overlap entre chunks (20-30% de sobreposição) garante que informações que cruzam fronteiras de chunk não sejam perdidas. Metadados como título do documento, seção, data e fonte devem ser armazenados junto com cada chunk para filtragem e referenciação. Quando o retrieval encontra um chunk relevante, o metadado permite citar a fonte exata na resposta — “Conforme o Manual de Onboarding, seção 3.2…”.

Avaliação e otimização

RAG sem avaliação é adivinhação. Métricas essenciais: context relevancy (os chunks recuperados são realmente relevantes?), answer faithfulness (a resposta é fiel ao contexto recuperado ou o modelo hallucinou?), e answer relevancy (a resposta atende à pergunta?). Frameworks como RAGAS automatizam essa avaliação com datasets de teste. Compare: retrieval com embeddings OpenAI vs sentence-transformers, chunks de 500 vs 1000 tokens, top-3 vs top-5 chunks — cada combinação afeta a qualidade final.

Técnicas avançadas incluem: re-ranking dos chunks recuperados com um cross-encoder (mais preciso que similaridade de embedding), query expansion onde o LLM reformula a pergunta antes do retrieval, e hybrid search que combina busca vetorial com busca textual (BM25) para cobrir tanto similaridade semântica quanto correspondência exata de termos técnicos.