OrquestraçãoAtualizado 2026-06-21 · Versão 1.0

Roteamento (Routing)

O roteamento classifica uma entrada e a direciona ao manipulador, prompt ou modelo especializado mais adequado. Melhora a qualidade ao otimizar cada caminho para seu caso e controla o custo enviando requisições fáceis a modelos baratos e as difíceis a modelos capazes.

Evidência: Observação do setorConfiança: AltaFonte: Observação do setorFonte: Paper

Problema

Um único prompt ou modelo lidando com cada tipo de entrada faz cada uma pior, e usar um modelo caro para tudo desperdiça dinheiro em requisições fáceis.

Quando usar

Use o roteamento quando as entradas caem em categorias distintas que se beneficiam de tratamento diferente — diferentes prompts, ferramentas, modelos ou fluxos — e as categorias podem ser classificadas de forma confiável.

Solução

Um classificador leve (uma chamada ao LLM ou um modelo) rotula a entrada, e então um roteador a envia ao manipulador adequado. Cada manipulador é especializado e otimizado para sua categoria.

O roteamento também permite escalonar custo-desempenho: roteie consultas simples a um modelo rápido e barato e as complexas a um modelo de raciocínio mais forte, pagando por capacidade só quando necessário.

Componentes

ClassificadorLógica de roteamentoManipuladores especializadosRota padrão / fallback

Benefícios

  • Cada caminho é otimizado para seu caso, elevando a qualidade.
  • Controle de custo escalonando modelos conforme a dificuldade.
  • A separação de responsabilidades mantém cada manipulador simples.

Riscos

  • A má classificação envia entradas pelo caminho errado.
  • O classificador adiciona um passo e alguma latência.
  • A deriva de categorias ao longo do tempo degrada a precisão.

Quando não usar

  • Quando as entradas são homogêneas: basta um manipulador.
  • Quando as categorias não podem ser classificadas de forma confiável.
  • Quando o passo de classificação adicionado não compensa o ganho.

Tecnologias

Classifier modelsLangGraphModel routersRules engines

Exemplos

  • Rotear chamados de suporte a manipuladores de faturamento, técnico ou vendas.
  • Enviar perguntas simples a um modelo pequeno e as difíceis a um de raciocínio.
  • Direcionar diferentes tipos de documento a extratores específicos por tipo.

KPIs

Precisão de roteamento
Proporção de entradas enviadas ao manipulador/modelo correto; a métrica que define o valor do padrão.
Economia vs. usar sempre o melhor modelo
Dinheiro economizado ao rotear entradas fáceis para modelos mais baratos em vez do melhor para tudo.
Custo de roteamento errado
O dano posterior de rotas erradas; um roteamento errado pode custar muito mais que a economia buscada.
Sobrecusto de latência do roteador
Tempo que a própria decisão de roteamento adiciona antes de começar o trabalho real.

Modos de falha observados

  • Má classificação: o roteador envia uma entrada ao modelo ou rota errados, degradando a resposta.
  • Entradas ambíguas que não encaixam bem em nenhuma rota e são forçadas a uma deficiente.
  • O roteador vira gargalo ou ponto único de falha de cada requisição.
  • Deriva: a distribuição de entradas muda com o tempo e as categorias do roteador ficam obsoletas.

Lições aprendidas

  • Otimize pelo custo de um roteamento errado, não só pela precisão: algumas rotas erradas são muito mais caras que outras.
  • Adicione uma rota padrão / de fallback para entradas que não encaixem bem em nada.
  • Mantenha o roteador barato e rápido; se custa tanto quanto o trabalho, perde o sentido.
  • Monitore a deriva de entradas e reajuste as rotas quando a distribuição mudar.

FAQs

O que classifica a entrada?
Normalmente uma chamada leve ao LLM ou um modelo classificador dedicado; para casos claros, regras determinísticas podem rotear sem modelo.
Como o roteamento economiza custo?
Escalonando: as requisições fáceis vão a modelos baratos e rápidos e só as difíceis chegam a modelos de raciocínio caros, então você paga por capacidade só quando necessário.
E se o classificador errar?
Forneça uma rota padrão sensata e monitore os erros de rota; um manipulador de fallback e boa observabilidade limitam o impacto da má classificação.

Referências