ConceitosAtualizado 2026-06-21 · Versão 1.0

O que é Fine-tuning (Ajuste fino)?

O fine-tuning continua o treinamento de um modelo pré-treinado com um conjunto de dados menor e direcionado para especializar seu comportamento, estilo ou conhecimento de domínio. É muito mais barato que o pré-treinamento e muda os pesos do modelo, ao contrário do prompting ou da recuperação, que o deixam intacto. Use-o para fixar um formato, tom ou habilidade consistentes; use recuperação quando precisar de fatos frescos ou privados.

Evidência: BenchmarkConfiança: AltaFonte: BenchmarkFonte: Paper

Definição

O fine-tuning é o processo de seguir treinando um modelo pré-treinado com um conjunto de dados focado para adaptar seus pesos rumo a um comportamento, estilo, formato ou domínio específico.

Pontos-chave

  • O fine-tuning atualiza os pesos do modelo; o prompting e o RAG não.
  • Melhor para comportamento, estilo ou formato consistentes, não para fatos frescos.
  • Métodos eficientes em parâmetros (LoRA) o tornam barato e prático.
  • O RLHF é uma forma de fine-tuning que usa preferências humanas.
  • Comece por prompting e recuperação; faça fine-tuning quando estagnarem.

Contexto

Um modelo de fundação pré-treinado é um generalista. O fine-tuning o estreita: após ver exemplos suficientes do comportamento alvo, o modelo o internaliza, então não é mais preciso especificá-lo em cada prompt.

É uma das três alavancas de adaptação, junto ao prompting e à recuperação. A arte está em escolher a adequada: fine-tuning para como o modelo deve se comportar, recuperação para o que deve saber.

Arquitetura

O fine-tuning completo atualiza todos os pesos: potente mas caro. O fine-tuning eficiente em parâmetros (PEFT), notavelmente o LoRA, treina pequenos pesos adaptadores congelando a base, capturando quase todo o benefício a uma fração do custo.

O instruction tuning e o RLHF são etapas especializadas de fine-tuning que transformam um modelo base bruto num assistente útil e alinhado. A qualidade do dataset importa muito mais que seu tamanho.

Componentes

Modelo base pré-treinadoDataset de treinamento curadoObjetivo de treinamentoAdaptadores PEFT / LoRAConjunto de avaliação

Benefícios

  • Fixa um comportamento, estilo ou formato consistentes.
  • Reduz o comprimento do prompt e o custo por chamada.
  • Pode ensinar habilidades estreitas que a base não tem.
  • PEFT o torna acessível e rápido.

Riscos

  • Não adiciona fatos frescos ou privados: use recuperação para isso.
  • Risco de esquecimento catastrófico ou sobreajuste.
  • Precisa de um dataset de qualidade bem rotulado e um conjunto de avaliação.
  • Acopla você a uma versão de modelo; custo de migração ao atualizar.

Ferramentas e tecnologias

Bibliotecas LoRA / PEFTAPIs de fine-tuning de provedoresPipelines de RLHF / ajuste por preferênciasSuítes de avaliação

Exemplos

  • Fazer fine-tuning para um modelo emitir sempre um formato JSON estrito da empresa.
  • Ensinar uma voz de marca consistente para textos gerados.
  • Adaptar um modelo à terminologia de um domínio especializado.

FAQs

Fine-tuning ou RAG?
Faça fine-tuning para mudar como o modelo se comporta (estilo, formato, habilidade); use recuperação (RAG) para dar-lhe conhecimento fresco ou privado. São complementares, não rivais.
O fine-tuning é caro?
O completo pode ser, mas métodos eficientes como o LoRA treinam adaptadores minúsculos e o tornam barato e rápido para a maioria dos casos.
O que é RLHF?
O aprendizado por reforço com feedback humano é uma etapa de fine-tuning que usa julgamentos de preferência humana para tornar um modelo mais útil, inofensivo e honesto.
Quando devo fazer fine-tuning?
Quando o prompting e a recuperação estagnam. Se você pode resolver com um prompt melhor ou contexto relevante, faça isso primeiro: é mais barato e flexível.

Referências