Como criar um chatbot com Python e a API da OpenAI do zero

Construir um chatbot inteligente deixou de ser privilégio de grandes empresas. Com Python e a API da OpenAI, você cria um assistente conversacional funcional em poucas horas — e o resultado pode ser integrado em sites, apps e ferramentas internas. Este guia mostra o caminho completo, do setup ao deploy.

Setup do ambiente

Comece criando um ambiente virtual com venv ou conda para isolar as dependências do projeto. Instale o pacote openai via pip, junto com python-dotenv para gerenciar chaves de API de forma segura. Nunca coloque sua API key diretamente no código — use variáveis de ambiente ou um arquivo .env que está no .gitignore. Crie uma conta na OpenAI, gere uma API key no dashboard, e defina um spending limit para evitar surpresas na fatura.

A estrutura básica do projeto é simples: um arquivo principal para a lógica do chatbot, um arquivo de configuração com prompts e parâmetros, e um módulo para gerenciar o histórico de conversas. Essa separação facilita manutenção e testes desde o início.

A chamada básica à API

A API de chat completions da OpenAI recebe uma lista de mensagens com roles (system, user, assistant) e retorna a resposta do modelo. O system message define a personalidade e regras do bot. As mensagens de user e assistant formam o histórico que dá contexto ao modelo. Cada chamada é stateless — você precisa enviar o histórico relevante a cada requisição.

Um chatbot mínimo funcional precisa de: o system prompt bem definido, um loop que recebe input do usuário, adiciona ao histórico, chama a API, e exibe a resposta. Com menos de 30 linhas de Python você tem um assistente conversacional rodando no terminal. A partir daí, cada melhoria é incremental.

Gerenciamento de contexto e memória

O maior desafio técnico de chatbots é o gerenciamento de contexto. Modelos têm limite de tokens (128K para GPT-4o), e enviar o histórico completo de uma conversa longa estoura esse limite e aumenta o custo. Estratégias para lidar com isso incluem: janela deslizante que mantém apenas as últimas N mensagens, sumarização automática onde o modelo resume o histórico antigo em poucas frases, e retrieval augmented generation onde mensagens relevantes são buscadas por similaridade semântica usando embeddings em vez de enviar tudo.

Para chatbots simples, a janela deslizante com as últimas 10-20 mensagens funciona bem. Para assistentes que precisam lembrar informações de sessões anteriores, armazene o histórico em banco de dados e use embeddings para recuperar contexto relevante. O ChromaDB ou FAISS são opções leves para busca vetorial local.

Adicionando ferramentas e function calling

O function calling permite que o chatbot execute ações reais: consultar um banco de dados, chamar uma API externa, enviar emails, ou manipular arquivos. Você define funções disponíveis com schema JSON, o modelo decide quando chamá-las baseado na conversa, e seu código executa a função e retorna o resultado ao modelo. Isso transforma o chatbot de um gerador de texto em um agente que realmente faz coisas.

Exemplo prático: um chatbot de suporte ao cliente que, quando o usuário pergunta sobre o status do pedido, chama automaticamente a API do sistema de entregas, obtém o tracking em tempo real, e responde com informações atualizadas. Sem function calling, ele só poderia inventar uma resposta genérica.

Interface web com Streamlit ou Gradio

Para transformar seu chatbot de terminal em aplicação web, Streamlit e Gradio criam interfaces de chat em minutos. Streamlit oferece componentes de chat nativos com st.chat_message e st.chat_input, histórico visual de mensagens, e deploy gratuito no Streamlit Community Cloud. Gradio oferece uma interface de chatbot pronta com gr.ChatInterface que aceita funções Python diretamente. Ambos são ideais para protótipos, demos e ferramentas internas.

Para produção, considere FastAPI como backend servindo a lógica do chatbot via API REST ou WebSocket, com um frontend React ou Vue para a interface. Isso dá controle total sobre autenticação, rate limiting, logging e escalabilidade que frameworks de prototipagem não oferecem nativamente.

Deploy e custos

O custo da API da OpenAI é por token processado. GPT-4o custa cerca de $2.50 por milhão de tokens de input e $10 por milhão de output. Para um chatbot com mensagens médias de 100 tokens e respostas de 300 tokens, cada interação custa frações de centavo. Em volume alto, modelos menores como GPT-4o-mini oferecem custo 10-20x menor com qualidade suficiente para a maioria dos casos de suporte e FAQ.

Deploy na cloud é direto: Docker container com sua aplicação Python, hospedado em Railway, Render, Fly.io ou qualquer cloud provider. Configure health checks, logging estruturado, e métricas de latência e custo por conversa. Monitore a qualidade das respostas com amostragem periódica — chatbots podem degradar sutilmente sem que métricas técnicas detectem o problema.