Fine-tuning de LLMs: quando e como treinar modelos de linguagem para seu domínio

Large Language Models genéricos como GPT-4 e Llama são impressionantes, mas não falam a língua do seu negócio. Fine-tuning adapta um modelo pré-treinado ao seu domínio específico — jargão técnico, estilo de escrita, regras de negócio, ou formato de resposta. É a diferença entre um assistente genérico e um especialista que entende seu contexto profundamente.

Quando fine-tuning faz sentido

Fine-tuning não é a primeira opção — é a terceira. Antes, tente: (1) prompt engineering melhor com few-shot examples, e (2) RAG para injetar conhecimento contextual. Se ambos não alcançam a qualidade desejada, fine-tuning é o próximo passo. Use fine-tuning quando: precisa de estilo de resposta consistente (tom, formato, comprimento), o modelo precisa seguir regras complexas que não cabem em um system prompt, ou precisa de performance específica em uma tarefa narrow (classificação, extração de entidades).

Não use fine-tuning para: ensinar fatos novos ao modelo (RAG é melhor e mais barato), tarefas que mudam frequentemente (retreinar é caro), ou quando few exemplos de treinamento estão disponíveis (menos de 50-100 exemplos de qualidade). O custo de fine-tuning envolve: curadoria de dataset, computação do treinamento, avaliação de qualidade, e manutenção contínua quando dados e requisitos mudam.

Preparação do dataset

A qualidade do dataset é 80% do resultado. Cada exemplo deve ser um par de input/output que representa exatamente o comportamento desejado. Para um modelo de suporte ao cliente: input é a pergunta do cliente com contexto do pedido, output é a resposta ideal que um agente sênior daria. Para classificação de tickets: input é o texto do ticket, output é a categoria com confiança. Formato típico: JSONL com campos messages (system, user, assistant).

Mínimo recomendado: 50-100 exemplos de alta qualidade para tarefas simples, 500-1000 para tarefas complexas. Qualidade supera quantidade: 100 exemplos curados por especialistas do domínio superam 10.000 exemplos gerados automaticamente com ruído. Divida o dataset: 80% treinamento, 10% validação, 10% teste. O set de teste nunca é visto durante o treinamento e serve para avaliação final honesta do modelo.

Técnicas de fine-tuning

Full fine-tuning ajusta todos os parâmetros do modelo — eficaz mas computacionalmente caro e requer GPUs potentes. LoRA (Low-Rank Adaptation) é a técnica mais popular: congela os pesos originais e adiciona pequenas matrizes treináveis (adapters) em cada camada. Resultado similar ao full fine-tuning com fração do custo e hardware. QLoRA combina LoRA com quantização (modelo original em 4-bit), permitindo fine-tuning de modelos de 70B parâmetros em uma única GPU de 24GB.

Plataformas managed simplificam o processo: OpenAI API de fine-tuning aceita seu JSONL e retorna um modelo customizado acessível via mesma API (custo por token é maior). Serviços como Together AI e Anyscale oferecem fine-tuning de modelos open-source com infraestrutura gerenciada. Para controle total, frameworks como Hugging Face Transformers + PEFT + Accelerate rodam o treinamento on-premise ou em cloud VMs com GPUs alugadas.

Avaliação e iteração

Avalie o modelo fine-tunado contra o baseline com o set de teste: a resposta está no formato correto? O tom está consistente? As instruções são seguidas fielmente? Para tarefas de classificação, métricas automáticas (accuracy, F1, precision, recall) funcionam. Para geração de texto, avaliação humana é necessária: rubrics definidos que pontuam relevância, precisão, completude e tom de cada resposta.

O risco de overfitting é real em datasets pequenos: o modelo memoriza os exemplos de treinamento em vez de aprender o padrão. Monitore a loss no set de validação — se a training loss continua caindo mas a validation loss sobe, o modelo está overfitting. Regularização via dropout, learning rate scheduler, e early stopping mitigam esse problema. Iteração é esperada: primeiro fine-tuning raramente é perfeito. Analise erros, adicione exemplos que cobrem edge cases, e retreine.