Política de Supervisión Humana y Rendición de Cuentas
Una política operativa que lleva la supervisión humana del Artículo 14 del EU AI Act a la práctica para la IA agéntica. Asigna un responsable nombrado por agente, fija el nivel de supervisión (en el bucle, sobre el bucle, fuera del bucle) según el riesgo y define la autoridad de intervención, anulación y parada más las vías de escalado. Exige que los supervisores sean competentes y tengan tiempo para actuar, y protege frente al sello automático y el sesgo de automatización. Existe para evitar dos fallos: el humano ausente y el humano simbólico que no puede entender, anular ni responder por lo que hace el agente.
Definición
Una política de supervisión humana y rendición de cuentas es un conjunto de reglas vinculantes que asigna un humano nombrado como responsable de cada agente y garantiza que una persona competente pueda entender, intervenir y detener sus acciones.
Alcance
Todo agente en producción o piloto que use herramientas, actúe sobre sistemas o tome decisiones de consecuencia, y los propietarios de sistema, aprobadores y operadores que los supervisan. Operacionaliza el Artículo 14; no sustituye al asesoramiento legal.
Requisitos clave
- Cada agente tiene un único responsable nombrado: la rendición de cuentas nunca se transfiere al modelo.
- El nivel de supervisión se ajusta al riesgo: en el bucle para acciones de alto impacto o irreversibles, sobre el bucle para acciones reversibles de alto volumen, fuera del bucle solo para tareas reversibles de bajo riesgo.
- Cada agente expone controles probados de rechazar, modificar y detener (interruptor de parada) con el contexto necesario para una decisión informada.
- Los umbrales de escalado enrutan las decisiones de consecuencia a humanos por impacto, irreversibilidad, derechos o seguridad, confianza y novedad.
- Los supervisores deben ser competentes, estar informados de forma inteligible y tener autoridad y tiempo reales para actuar.
- El sesgo de automatización y el sello automático se contrarrestan activamente, no se dan por descartados.
Controles
- Responsable nombrado
- Asigna un humano que responda por los resultados de cada agente. 'El modelo decidió' no es una explicación aceptable.
- Nivel de supervisión según riesgo
- Define en el bucle, sobre el bucle o fuera del bucle por agente según el impacto y la reversibilidad de la acción. Implementa el patrón de puerta de aprobación humana para acciones de alto impacto.
- Autoridad de anulación y parada
- Expón controles probados de rechazar, modificar y detener; muestra suficiente contexto para una anulación informada. La parada debe ser rápida y accesible.
- Umbrales de escalado
- Enruta las decisiones a humanos cuando se cruzan umbrales de impacto, irreversibilidad, derechos/seguridad, baja confianza o novedad. Implementa el patrón de escalado humano.
- Competencia del supervisor
- Forma y certifica a los supervisores en el dominio y los límites del agente para que la supervisión sea significativa, no nominal.
- Salvaguardas contra el sello automático
- Limita y exige justificación para las aprobaciones; monitoriza el tiempo de aprobación y la tasa de anulaciones para detectar el sesgo de automatización.
Lista de verificación
- 01Nombra un único responsable para cada agente en producción y regístralo.
- 02Clasifica las acciones de cada agente por impacto y reversibilidad y asigna un nivel de supervisión.
- 03Implementa y prueba los controles de rechazar, modificar y detener (interruptor de parada) para cada agente.
- 04Asegura que el agente muestre contexto inteligible para cualquier decisión que necesite supervisión.
- 05Define y configura umbrales de escalado para impacto, derechos/seguridad, confianza y novedad.
- 06Forma a los supervisores en el dominio y los límites del agente y mantén su certificación al día.
- 07Añade salvaguardas contra el sello automático y monitoriza el tiempo de aprobación y la tasa de anulaciones.
- 08Registra cada aprobación y anulación con actor, motivo y marca de tiempo, y revisa los umbrales de forma periódica.
Errores comunes
- Supervisión simbólica: un humano pulsa aprobar sin el contexto, la autoridad o el tiempo para evaluar realmente la acción.
- Sesgo de automatización: los aprobadores confían tanto en el agente que dejan de escrutar su salida.
- Rendición de cuentas difusa: ningún responsable nombrado, así que un fallo no tiene humano que responda.
- Anulación inalcanzable: un control de parada lento, oculto o nunca probado.
- Deriva de umbrales: límites de escalado fijados una vez y nunca actualizados a medida que crece el alcance del agente.
Ejemplos
- Un agente financiero cuyos pagos por encima de un tope de gasto requieren aprobación humana en el bucle, mientras las conciliaciones corren sobre el bucle.
- Un agente de soporte que escala a un humano cuando su confianza es baja o una solicitud afecta los derechos de un cliente.
- Un incidente en el que el responsable nombrado rinde cuentas y el registro de anulaciones muestra quién aprobó la acción y por qué.
FAQs
- ¿Supervisión humana significa que un humano aprueba todo?
- No. La supervisión es por niveles: en el bucle para acciones de alto impacto o irreversibles, monitorización sobre el bucle para acciones reversibles de alto volumen y una postura de humano al mando en general. El modelo se ajusta al riesgo para que la supervisión siga siendo significativa en vez de convertirse en fatiga de aprobación.
- ¿Puede la rendición de cuentas recaer en el proveedor de IA?
- No. Las relaciones con proveedores se gobiernan aparte, pero tu propietario de sistema nombrado sigue siendo responsable de cómo se despliega y usa el agente. La automatización es una herramienta, no una defensa.
- ¿Cómo evitamos el sello automático y el sesgo de automatización?
- Muestra contexto inteligible para cada decisión, limita y exige justificación para las aprobaciones, monitoriza el tiempo de aprobación y la tasa de anulaciones, y mantén a los supervisores competentes mediante formación y rotación.