Haz fine-tuning para cambiar cómo se comporta el modelo (estilo, formato, habilidad); usa recuperación (RAG) para darle conocimiento fresco o privado. Son complementarios, no rivales.

¿El fine-tuning es caro?

El completo puede serlo, pero métodos eficientes como LoRA entrenan adaptadores diminutos y lo hacen barato y rápido para la mayoría de casos.

El aprendizaje por refuerzo con feedback humano es una etapa de fine-tuning que usa juicios de preferencia humana para hacer un modelo más útil, inofensivo y honesto.

¿Cuándo debería hacer fine-tuning?

Cuando el prompting y la recuperación se estancan. Si puedes resolverlo con un mejor prompt o contexto relevante, hazlo primero: es más barato y flexible.

ConceptosActualizado 2026-06-21 · Versión 1.0

¿Qué es el Fine-tuning (Ajuste fino)?

El fine-tuning continúa el entrenamiento de un modelo preentrenado con un conjunto de datos más pequeño y dirigido para especializar su comportamiento, estilo o conocimiento de dominio. Es mucho más barato que el preentrenamiento y cambia los pesos del modelo, a diferencia del prompting o la recuperación, que lo dejan intacto. Úsalo para fijar un formato, tono o habilidad consistentes; usa recuperación cuando necesites hechos frescos o privados.

Evidencia: BenchmarkConfianza: AltaFuente: BenchmarkFuente: Paper

Legible por máquina: JSON

Definición

El fine-tuning es el proceso de seguir entrenando un modelo preentrenado con un conjunto de datos enfocado para adaptar sus pesos hacia un comportamiento, estilo, formato o dominio específico.

Puntos clave

El fine-tuning actualiza los pesos del modelo; el prompting y el RAG no.
Mejor para comportamiento, estilo o formato consistentes, no para hechos frescos.
Los métodos eficientes en parámetros (LoRA) lo hacen barato y práctico.
El RLHF es una forma de fine-tuning que usa preferencias humanas.
Empieza por prompting y recuperación; haz fine-tuning cuando se estanquen.

Contexto

Un modelo fundacional preentrenado es un generalista. El fine-tuning lo estrecha: tras ver suficientes ejemplos del comportamiento objetivo, el modelo lo interioriza, así que ya no hace falta especificarlo en cada prompt.

Es una de las tres palancas de adaptación, junto al prompting y la recuperación. El arte está en elegir la adecuada: fine-tuning para cómo debe comportarse el modelo, recuperación para qué debe saber.

Arquitectura

El fine-tuning completo actualiza todos los pesos: potente pero caro. El fine-tuning eficiente en parámetros (PEFT), notablemente LoRA, entrena pequeños pesos adaptadores congelando la base, capturando casi todo el beneficio a una fracción del coste.

El instruction tuning y el RLHF son etapas especializadas de fine-tuning que convierten un modelo base bruto en un asistente útil y alineado. La calidad del dataset importa mucho más que su tamaño.

Componentes

Modelo base preentrenadoDataset de entrenamiento curadoObjetivo de entrenamientoAdaptadores PEFT / LoRAConjunto de evaluación

Beneficios

Fija un comportamiento, estilo o formato consistentes.
Reduce la longitud del prompt y el coste por llamada.
Puede enseñar habilidades estrechas que la base no tiene.
PEFT lo hace asequible y rápido.

Riesgos

No añade hechos frescos o privados: usa recuperación para eso.
Riesgo de olvido catastrófico o sobreajuste.
Necesita un dataset de calidad bien etiquetado y un set de evaluación.
Te acopla a una versión de modelo; coste de migración al actualizar.

Herramientas y tecnologías

Librerías LoRA / PEFTAPIs de fine-tuning de proveedoresPipelines de RLHF / ajuste por preferenciasSuites de evaluación

Ejemplos

Hacer fine-tuning para que un modelo emita siempre un formato JSON estricto de la empresa.
Enseñar una voz de marca consistente para textos generados.
Adaptar un modelo a la terminología de un dominio especializado.

FAQs

¿Fine-tuning o RAG?: Haz fine-tuning para cambiar cómo se comporta el modelo (estilo, formato, habilidad); usa recuperación (RAG) para darle conocimiento fresco o privado. Son complementarios, no rivales.
¿El fine-tuning es caro?: El completo puede serlo, pero métodos eficientes como LoRA entrenan adaptadores diminutos y lo hacen barato y rápido para la mayoría de casos.
¿Qué es el RLHF?: El aprendizaje por refuerzo con feedback humano es una etapa de fine-tuning que usa juicios de preferencia humana para hacer un modelo más útil, inofensivo y honesto.
¿Cuándo debería hacer fine-tuning?: Cuando el prompting y la recuperación se estancan. Si puedes resolverlo con un mejor prompt o contexto relevante, hazlo primero: es más barato y flexible.