Fine-tuning de modelos de linguagem: quando fazer, como fazer e quanto custa

Fine-tuning permite adaptar um modelo de linguagem pré-treinado para tarefas específicas do seu domínio. Em vez de depender exclusivamente de prompt engineering, você treina o modelo com exemplos do seu caso de uso, e ele aprende o estilo, a terminologia e o comportamento desejados. Mas fine-tuning não é sempre a resposta certa — saber quando e como usá-lo é a habilidade que faz diferença.

Quando fine-tuning faz sentido

Fine-tuning se justifica quando: o modelo base não atende a qualidade necessária mesmo com prompts elaborados, você precisa de um estilo ou formato de saída muito específico e consistente, a tarefa envolve terminologia especializada que o modelo base não domina (jurídico, médico, financeiro), ou você quer reduzir custos usando um modelo menor fine-tuned em vez de um modelo grande via API. Se prompt engineering com few-shot examples resolve seu problema, não faça fine-tuning — é mais caro, mais complexo e mais difícil de iterar.

Exemplos de bons cases: classificar tickets de suporte nas categorias específicas da sua empresa, gerar code reviews seguindo o style guide interno, extrair dados estruturados de contratos com campos proprietários, ou traduzir documentação técnica mantendo terminologia do produto. Em todos esses casos, o modelo precisa aprender padrões que são únicos do seu contexto e que few-shot examples não capturam com consistência suficiente.

Preparação do dataset

A qualidade do dataset é vastamente mais importante que o tamanho. Um dataset de 200 exemplos excelentes, consistentes e representativos supera um dataset de 5000 exemplos ruidosos e inconsistentes. Cada exemplo deve ser o “gold standard” do comportamento desejado — se você não ficaria satisfeito com aquele output em produção, não inclua no dataset.

O formato varia por plataforma, mas o padrão é JSONL com pares de mensagens: system prompt, user input e assistant output. Inclua diversidade nos inputs: variações de formulação, edge cases, exemplos de diferentes comprimentos. Inclua também exemplos negativos quando relevante — se o modelo deve recusar certos tipos de pedido, mostre como recusar educadamente.

Divida o dataset em treino (80%) e validação (20%). A loss de validação é sua métrica principal para evitar overfitting. Se a loss de treino cai mas a de validação estabiliza ou sobe, o modelo está memorizando em vez de generalizando.

Fine-tuning via OpenAI

A OpenAI oferece fine-tuning para GPT-4o-mini e GPT-4o via API. O processo é: preparar o dataset em JSONL, fazer upload via API, criar um job de fine-tuning com hiperparâmetros (epochs, learning rate multiplier, batch size), monitorar métricas de treino, e usar o modelo resultante como qualquer outro modelo da API. O custo é por token de treinamento mais o custo de inference do modelo customizado. Para GPT-4o-mini, o treinamento com 100K tokens custa menos de $5 — extremamente acessível.

Fine-tuning local com modelos open-source

Para modelos como Llama 3, Mistral ou Qwen, QLoRA (Quantized Low-Rank Adaptation) permite fine-tuning com hardware acessível. Em vez de treinar todos os bilhões de parâmetros, LoRA adiciona pequenas matrizes treináveis em camadas específicas, reduzindo a memória necessária em mais de 90%. Um modelo de 7B pode ser fine-tuned em uma GPU com 16GB de VRAM — uma RTX 4060 Ti é suficiente.

Ferramentas como Unsloth, Axolotl e Hugging Face TRL simplificam enormemente o pipeline. Unsloth em particular oferece aceleração de 2-5x no treinamento com otimizações customizadas de kernels, e funciona com uma única chamada de função que configura modelo, tokenizer e trainer automaticamente. O workflow é: carregar modelo base quantizado, preparar dataset, configurar LoRA rank e alpha, treinar por 1-3 epochs, avaliar com exemplos do validation set, e exportar em formato GGUF para inference com llama.cpp ou Ollama.

Avaliação e iteração

Não confie apenas na loss de validação. Avalie o modelo fine-tuned com exemplos reais que não estavam no dataset. Compare side-by-side com o modelo base usando os mesmos inputs. Meça métricas específicas da tarefa: accuracy de classificação, F1 score, BLEU para tradução, ou avaliação humana para tarefas criativas. Se o modelo fine-tuned não supera consistentemente o modelo base com prompt engineering, revise o dataset antes de retreinar.

Fine-tuning é um processo iterativo. O primeiro modelo raramente é o definitivo. Comece com um dataset pequeno, avalie, identifique os padrões de erro, adicione exemplos que cobrem esses gaps, e retreine. Cada iteração deve ter uma hipótese clara sobre o que melhorar e uma métrica para verificar se melhorou. Trate o dataset como código — versione, documente e faça review.