ARCH-002Conhecimento e buscaAtualizado 2026-06-21 · Versão 1.0

Assistente de Conhecimento Empresarial

Uma arquitetura de referência para um assistente de conhecimento interno que responde perguntas dos funcionários a partir dos próprios documentos da empresa —wikis, políticas, tickets, código— com citações e respeitando as permissões de acesso de cada usuário. Combina recuperação híbrida e reranking para fundamentar, filtragem por permissões para segurança, e um harness de avaliação para que a qualidade seja medida em vez de assumida. O difícil não é o modelo; é a qualidade da recuperação, o controle de acesso e a avaliação.

Evidência: Observação do setorConfiança: AltaFonte: Observação do setorFonte: Paper

Conceitos-chave

  • Recuperação com permissões: um usuário só recupera documentos que tem permissão de ver.
  • Busca híbrida + reranking: combinar busca por palavras-chave e vetorial, e então reordenar por precisão.
  • Citações: cada resposta liga aos seus trechos fonte para verificação.
  • Avaliação: a qualidade das respostas é pontuada contra um conjunto curado, continuamente.

Definição

A arquitetura de assistente de conhecimento empresarial é um sistema RAG com consciência de permissões que responde perguntas de funcionários a partir de documentos internos com citações, restrito aos direitos de acesso de cada usuário e avaliado continuamente.

Arquitetura

O conteúdo de muitas fontes internas é ingerido, fragmentado e incorporado em um armazenamento vetorial, com cada fragmento marcado pelos metadados de controle de acesso do seu documento de origem. Na consulta, o assistente roteia a pergunta, executa recuperação híbrida (palavras-chave + vetorial) filtrada às permissões do usuário, reordena os candidatos e sintetiza uma resposta citada a partir dos melhores trechos.

A segurança é estrutural, não acoplada: o filtro de controle de acesso é aplicado durante a recuperação, então o modelo nunca vê documentos aos quais o usuário não pode acessar. Um cache semântico serve perguntas repetidas de forma barata, e os guard-rails mantêm as respostas dentro da política e sinalizam os casos de baixa confiança.

A qualidade é governada por medição: um harness de avaliação pontua as respostas por fundamentação, correção e precisão de citações contra um conjunto curado, e um loop opcional avaliador-otimizador revisa as respostas fracas antes de chegarem ao usuário. A observabilidade rastreia cada consulta para diagnosticar falhas e realimentar as avaliações.

Fluxo de requisição

  1. 1. Ingestão (offline): fragmentar e incorporar documentos; marcar cada fragmento com metadados de controle de acesso.
  2. 2. Rotear: classificar a pergunta e escolher a estratégia de recuperação.
  3. 3. Recuperar: busca híbrida filtrada às permissões do usuário (com cache verificado primeiro).
  4. 4. Reordenar: reordenar candidatos por precisão; manter os melhores trechos.
  5. 5. Sintetizar: gerar uma resposta citada; opcionalmente revisá-la com um loop avaliador.
  6. 6. Devolver e registrar: entregar a resposta com citações; rastrear e pontuar para avaliação.

Componentes

Pipeline de ingestão e fragmentaçãoEmbeddings + armazenamento vetorialFiltro de recuperação com permissõesBusca híbrida e rerankerSíntese de resposta com citaçõesCache semânticoHarness de avaliação e observabilidade

Cenário de referência

Contexto
Um assistente interno ilustrativo sobre a wiki de uma empresa, as políticas de RH e TI, e a documentação de engenharia.
Cenário
Os funcionários fazem perguntas em linguagem natural ('como faço para reembolsar viagem?', 'qual é a política de plantão?'); o assistente responde com citações, sem nunca mostrar documentos que quem pergunta não pode ver, e diz 'não sei' em vez de adivinhar quando a recuperação é fraca.
Tecnologia
Pipeline de ingestão, embeddings + armazenamento vetorial com metadados de ACL, recuperação híbrida e reranking, um harness de avaliação e rastreamento de consultas.
Carga
Tráfego interno estável com forte sobreposição de consultas (poucas políticas geram a maioria das perguntas), então a taxa de acertos de cache é alta e os embeddings dominam o custo offline.
Resultados
Meta de referência: respostas fundamentadas e citadas sem vazamentos de controle de acesso, e uma pontuação de fundamentação mensurável que melhora ao ajustar a recuperação. Trate todos os números como algo a medir no seu corpus, não como garantias.

Benefícios

  • Transforma o conhecimento interno disperso em respostas instantâneas e citadas.
  • A recuperação com permissões previne vazamentos de controle de acesso por construção.
  • As citações tornam as respostas verificáveis e geram confiança.
  • Um harness de avaliação torna a qualidade mensurável e as melhorias demonstráveis.

Riscos

  • Vazamentos de controle de acesso se as permissões não forem aplicadas na recuperação.
  • Respostas obsoletas quando o corpus muda mais rápido que a reindexação.
  • Alucinação confiante quando a recuperação é fraca e o modelo preenche a lacuna.
  • Fragmentação ruim que quebra o significado e degrada a recuperação.

KPIs

Fundamentação
Proporção de respostas totalmente apoiadas pelos trechos citados; a métrica de qualidade central de um assistente RAG.
Recall@k de recuperação
Com que frequência o trecho certo está nos top-k recuperados; a maioria dos erros de resposta remonta a isso.
Taxa de vazamento de controle de acesso
Qualquer resposta que mostre um documento ao qual o usuário não podia acessar; a métrica que deve ficar em zero.
Taxa de acertos de cache e custo por consulta
Cobertura de perguntas repetidas e custo unitário; uma alta sobreposição deve baratear a maioria das consultas.
Qualidade de abstenção
Com que frequência o assistente diz corretamente 'não sei' em vez de alucinar diante de uma recuperação fraca.

Custo e escalabilidade

  • A incorporação e indexação offline dominam o custo de ingestão e crescem com o tamanho do corpus e a frequência de atualização.
  • O custo na consulta é principalmente recuperação + geração; o reranking adiciona latência que você troca por precisão.
  • O cache achata o custo à medida que a sobreposição de consultas sobe, então o custo unitário cai com a adoção.
  • A cadência de reindexação é a real tensão de escala: respostas mais frescas custam mais computação.

Modos de falha observados

  • Bypass de permissões: um fragmento herda a ACL errada e aparece nos resultados de um usuário.
  • Lacunas de recuperação: o documento certo existe mas a fragmentação ou os embeddings não o encontram.
  • Obsolescência: uma resposta cita uma política superada porque a reindexação atrasou.
  • Deriva de citação: o trecho citado não apoia de fato a afirmação gerada.

Lições aprendidas

  • Aplique o controle de acesso dentro da recuperação, não após a geração; filtrar o prompt é tarde demais.
  • A maioria dos ganhos de qualidade vem da recuperação (fragmentação, busca híbrida, reranking), não de um modelo maior.
  • Torne 'não sei' uma resposta de primeira classe; uma resposta confiante e errada é pior que uma abstenção.
  • Monte a avaliação antes de escalar; sem ela, cada mudança é um palpite.

Tecnologias

RAG (retrieval-augmented generation)Embeddings + vector storeHybrid search & rerankingDocument-level access controlEvaluation harnessObservability (LangSmith / Langfuse)

Exemplos

  • Um funcionário perguntando a política de reembolso de viagem e obtendo uma resposta citada e atualizada.
  • Uma pergunta sobre um projeto restrito devolvendo corretamente nada para um usuário não autorizado.
  • Uma consulta com recuperação fraca respondida com 'não tenho uma fonte confiável para isso' em vez de adivinhar.

FAQs

Isso não é só RAG?
RAG é o núcleo, mas a arquitetura é definida pelo que a torna segura para a empresa: recuperação com permissões, citações, um harness de avaliação e observabilidade. Essas são as partes que decidem se ela pode ser confiável.
Por que aplicar permissões durante a recuperação?
Para que o modelo nunca veja documentos aos quais o usuário não pode acessar. Filtrar após a geração é tarde demais: o conteúdo já poderia ter vazado na resposta.
Como evitar que as respostas aluciem?
Fundamente cada resposta em trechos recuperados com citações, meça a fundamentação contra um conjunto de avaliação, e deixe o assistente se abster quando a recuperação for fraca em vez de preencher a lacuna.

Referências