¿Esto no es solo RAG?

RAG es el núcleo, pero la arquitectura la define lo que la hace segura para la empresa: recuperación con permisos, citas, un arnés de evaluación y observabilidad. Esas son las partes que deciden si se puede confiar en ella.

¿Por qué aplicar permisos durante la recuperación?

Para que el modelo nunca vea documentos a los que el usuario no puede acceder. Filtrar tras la generación es demasiado tarde: el contenido ya podría haberse filtrado en la respuesta.

¿Cómo se evita que las respuestas alucinen?

Fundamenta cada respuesta en pasajes recuperados con citas, mide la fundamentación contra un conjunto de evaluación, y deja que el asistente se abstenga cuando la recuperación es débil en vez de rellenar el hueco.

ARCH-002Conocimiento y búsquedaActualizado 2026-06-21 · Versión 1.0

Asistente de Conocimiento Empresarial

Una arquitectura de referencia para un asistente de conocimiento interno que responde preguntas de los empleados desde los propios documentos de la empresa —wikis, políticas, tickets, código— con citas y respetando los permisos de acceso de cada usuario. Combina recuperación híbrida y reranking para fundamentar, filtrado por permisos para la seguridad, y un arnés de evaluación para que la calidad se mida en vez de asumirse. Lo difícil no es el modelo; es la calidad de la recuperación, el control de acceso y la evaluación.

Evidencia: Observación del sectorConfianza: AltaFuente: Observación del sectorFuente: Paper

Legible por máquina: JSON

Conceptos clave

Recuperación con permisos: un usuario solo recupera documentos que tiene permitido ver.
Búsqueda híbrida + reranking: combinar búsqueda por palabras clave y vectorial, y luego reordenar por precisión.
Citas: cada respuesta enlaza a sus pasajes fuente para verificación.
Evaluación: la calidad de las respuestas se puntúa contra un conjunto curado, de forma continua.

Definición

La arquitectura de asistente de conocimiento empresarial es un sistema RAG con conciencia de permisos que responde preguntas de empleados desde documentos internos con citas, acotado a los derechos de acceso de cada usuario y evaluado de forma continua.

Arquitectura

El contenido de muchas fuentes internas se ingiere, trocea e incrusta en un almacén vectorial, con cada fragmento etiquetado por los metadatos de control de acceso de su documento de origen. En la consulta, el asistente enruta la pregunta, ejecuta recuperación híbrida (palabras clave + vectorial) filtrada a los permisos del usuario, reordena los candidatos y sintetiza una respuesta citada a partir de los mejores pasajes.

La seguridad es estructural, no añadida: el filtro de control de acceso se aplica durante la recuperación, así que el modelo nunca ve documentos a los que el usuario no puede acceder. Una caché semántica sirve preguntas repetidas de forma barata, y los guardarraíles mantienen las respuestas dentro de política y marcan los casos de baja confianza.

La calidad se gobierna con medición: un arnés de evaluación puntúa las respuestas por fundamentación, corrección y precisión de citas contra un conjunto curado, y un bucle opcional evaluador-optimizador revisa las respuestas débiles antes de que lleguen al usuario. La observabilidad traza cada consulta para diagnosticar fallos y retroalimentar las evaluaciones.

Flujo de petición

1. Ingesta (offline): trocear e incrustar documentos; etiquetar cada fragmento con metadatos de control de acceso.
2. Enrutar: clasificar la pregunta y elegir la estrategia de recuperación.
3. Recuperar: búsqueda híbrida filtrada a los permisos del usuario (con caché comprobada primero).
4. Reordenar: reordenar candidatos por precisión; quedarse con los mejores pasajes.
5. Sintetizar: generar una respuesta citada; opcionalmente revisarla con un bucle evaluador.
6. Devolver y registrar: entregar la respuesta con citas; trazar y puntuar para evaluación.

Componentes

Pipeline de ingesta y troceadoEmbeddings + almacén vectorialFiltro de recuperación con permisosBúsqueda híbrida y rerankerSíntesis de respuesta con citasCaché semánticaArnés de evaluación y observabilidad

Escenario de referencia

Contexto: Un asistente interno ilustrativo sobre la wiki de una empresa, las políticas de RRHH e IT, y la documentación de ingeniería.
Escenario: Los empleados hacen preguntas en lenguaje natural ('¿cómo reporto gastos de viaje?', '¿cuál es la política de guardias?'); el asistente responde con citas, sin mostrar nunca documentos que quien pregunta no puede ver, y dice 'no lo sé' en vez de adivinar cuando la recuperación es débil.
Tecnología: Pipeline de ingesta, embeddings + almacén vectorial con metadatos de ACL, recuperación híbrida y reranking, un arnés de evaluación y trazado de consultas.
Carga: Tráfico interno estable con fuerte solapamiento de consultas (unas pocas políticas generan la mayoría de preguntas), así que la tasa de aciertos de caché es alta y los embeddings dominan el coste offline.
Resultados: Objetivo de referencia: respuestas fundamentadas y citadas sin fugas de control de acceso, y una puntuación de fundamentación medible que mejora al afinar la recuperación. Trata todas las cifras como algo a medir en tu corpus, no como garantías.

Beneficios

Convierte el conocimiento interno disperso en respuestas instantáneas y citadas.
La recuperación con permisos previene fugas de control de acceso por construcción.
Las citas hacen las respuestas verificables y generan confianza.
Un arnés de evaluación hace la calidad medible y las mejoras demostrables.

Riesgos

Fugas de control de acceso si los permisos no se aplican en la recuperación.
Respuestas obsoletas cuando el corpus cambia más rápido que la reindexación.
Alucinación confiada cuando la recuperación es débil y el modelo rellena el hueco.
Troceado deficiente que fragmenta el significado y degrada la recuperación.

KPIs

Fundamentación: Proporción de respuestas totalmente respaldadas por los pasajes citados; la métrica de calidad central de un asistente RAG.
Recall@k de recuperación: Con qué frecuencia el pasaje correcto está en los top-k recuperados; la mayoría de errores de respuesta se remontan a esto.
Tasa de fuga de control de acceso: Cualquier respuesta que muestre un documento al que el usuario no podía acceder; la métrica que debe quedarse en cero.
Tasa de aciertos de caché y coste por consulta: Cobertura de preguntas repetidas y coste unitario; un alto solapamiento debería abaratar la mayoría de consultas.
Calidad de abstención: Con qué frecuencia el asistente dice correctamente 'no lo sé' en vez de alucinar ante una recuperación débil.

Coste y escalabilidad

La incrustación e indexación offline dominan el coste de ingesta y crecen con el tamaño del corpus y la frecuencia de actualización.
El coste en consulta es sobre todo recuperación + generación; el reranking añade latencia que cambias por precisión.
La caché aplana el coste a medida que sube el solapamiento de consultas, así que el coste unitario baja con la adopción.
La cadencia de reindexación es la verdadera tensión de escala: respuestas más frescas cuestan más cómputo.

Modos de fallo observados

Salto de permisos: un fragmento hereda la ACL equivocada y aparece en los resultados de un usuario.
Huecos de recuperación: el documento correcto existe pero el troceado o los embeddings no lo encuentran.
Obsolescencia: una respuesta cita una política superada porque la reindexación se retrasó.
Deriva de citas: el pasaje citado no respalda realmente la afirmación generada.

Lecciones aprendidas

Aplica el control de acceso dentro de la recuperación, no tras la generación; filtrar el prompt es demasiado tarde.
La mayoría de las mejoras de calidad vienen de la recuperación (troceado, búsqueda híbrida, reranking), no de un modelo más grande.
Haz de 'no lo sé' una respuesta de primera clase; una respuesta confiada y errónea es peor que una abstención.
Monta la evaluación antes de escalar; sin ella, cada cambio es una conjetura.

Tecnologías

RAG (retrieval-augmented generation)Embeddings + vector storeHybrid search & rerankingDocument-level access controlEvaluation harnessObservability (LangSmith / Langfuse)

Ejemplos

Un empleado preguntando la política de gastos de viaje y obteniendo una respuesta citada y actualizada.
Una pregunta sobre un proyecto restringido devolviendo correctamente nada para un usuario no autorizado.
Una consulta con recuperación débil respondida con 'no tengo una fuente fiable para eso' en vez de adivinar.

FAQs

¿Esto no es solo RAG?: RAG es el núcleo, pero la arquitectura la define lo que la hace segura para la empresa: recuperación con permisos, citas, un arnés de evaluación y observabilidad. Esas son las partes que deciden si se puede confiar en ella.
¿Por qué aplicar permisos durante la recuperación?: Para que el modelo nunca vea documentos a los que el usuario no puede acceder. Filtrar tras la generación es demasiado tarde: el contenido ya podría haberse filtrado en la respuesta.
¿Cómo se evita que las respuestas alucinen?: Fundamenta cada respuesta en pasajes recuperados con citas, mide la fundamentación contra un conjunto de evaluación, y deja que el asistente se abstenga cuando la recuperación es débil en vez de rellenar el hueco.

Patrones usados

Enrutamiento (Routing)Caché Semántica (Semantic Caching)Evaluador-Optimizador (Evaluator-Optimizer)Encadenamiento de Prompts (Prompt Chaining)

Se apoya en

¿Qué es el RAG empresarial (Enterprise RAG)?¿Qué son los Embeddings y la Búsqueda Vectorial?¿Qué es la Ingeniería de Contexto (Context Engineering)?¿Qué son los Guardarraíles de IA (Guardrails)?¿Qué es la Evaluación de IA Agéntica?¿Qué es la Gobernanza de la IA (AI Governance)?