Embeddings e busca semântica: como funciona a tecnologia por trás do RAG

O que são embeddings?

Embeddings são representações vetoriais de texto (ou imagens, áudio) num espaço multidimensional. Textos com significado similar ficam próximos nesse espaço. “Cachorro” e “cão” terão vetores quase idênticos, enquanto “cachorro” e “microondas” ficarão distantes.

Como embeddings são gerados

Modelos como text-embedding-3-large (OpenAI), e5-large-v2 e BGE-M3 processam texto e produzem vetores de 768 a 3072 dimensões. Cada dimensão captura um aspecto semântico. O modelo aprende essas representações a partir de bilhões de pares de texto similares.

Vector databases

Armazenar e buscar eficientemente entre milhões de vetores requer bancos especializados. Pinecone, Weaviate, Qdrant, Chroma e pgvector (extensão PostgreSQL) são as opções mais populares. Cada um tem tradeoffs de escala, custo e facilidade de uso.

Busca semântica vs keyword search

Buscar por “como eliminar bugs no código” com busca semântica encontra resultados sobre “debugging”, “correção de erros” e “troubleshooting” — mesmo sem essas palavras exatas. Keyword search só encontraria documentos com “bugs” e “código” literalmente.

Chunking: a arte de dividir documentos

Antes de gerar embeddings, documentos longos são divididos em chunks. A estratégia de chunking impacta drasticamente a qualidade da busca. Chunks de 256-512 tokens com overlap de 50 tokens é um bom ponto de partida, mas experimente com seu corpus.

Hybrid search

A melhor abordagem combina busca semântica com keyword search (BM25). O score final é uma combinação ponderada dos dois. Isso captura tanto a similaridade semântica quanto matches exatos de termos técnicos ou nomes próprios.

Reranking para precisão

Após a busca inicial retornar candidatos, um modelo de reranking (como Cohere Rerank ou cross-encoder) reordena os resultados com muito mais precisão. É mais lento que bi-encoder, mas aplicado apenas nos top-K resultados, o custo é aceitável.

Conclusão

Embeddings e busca semântica são a fundação do RAG e de qualquer sistema de IA que trabalha com conhecimento próprio. Dominar chunking, indexação e reranking é essencial para construir aplicações de IA que realmente entendem seu conteúdo.