O que classifica a entrada?

Normalmente uma chamada leve ao LLM ou um modelo classificador dedicado; para casos claros, regras determinísticas podem rotear sem modelo.

Como o roteamento economiza custo?

Escalonando: as requisições fáceis vão a modelos baratos e rápidos e só as difíceis chegam a modelos de raciocínio caros, então você paga por capacidade só quando necessário.

E se o classificador errar?

Forneça uma rota padrão sensata e monitore os erros de rota; um manipulador de fallback e boa observabilidade limitam o impacto da má classificação.

OrquestraçãoAtualizado 2026-06-21 · Versão 1.0

Roteamento (Routing)

O roteamento classifica uma entrada e a direciona ao manipulador, prompt ou modelo especializado mais adequado. Melhora a qualidade ao otimizar cada caminho para seu caso e controla o custo enviando requisições fáceis a modelos baratos e as difíceis a modelos capazes.

Evidência: Observação do setorConfiança: AltaFonte: Observação do setorFonte: Paper

Legível por máquina: JSON

Problema

Um único prompt ou modelo lidando com cada tipo de entrada faz cada uma pior, e usar um modelo caro para tudo desperdiça dinheiro em requisições fáceis.

Quando usar

Use o roteamento quando as entradas caem em categorias distintas que se beneficiam de tratamento diferente — diferentes prompts, ferramentas, modelos ou fluxos — e as categorias podem ser classificadas de forma confiável.

Solução

Um classificador leve (uma chamada ao LLM ou um modelo) rotula a entrada, e então um roteador a envia ao manipulador adequado. Cada manipulador é especializado e otimizado para sua categoria.

O roteamento também permite escalonar custo-desempenho: roteie consultas simples a um modelo rápido e barato e as complexas a um modelo de raciocínio mais forte, pagando por capacidade só quando necessário.

Componentes

ClassificadorLógica de roteamentoManipuladores especializadosRota padrão / fallback

Benefícios

Cada caminho é otimizado para seu caso, elevando a qualidade.
Controle de custo escalonando modelos conforme a dificuldade.
A separação de responsabilidades mantém cada manipulador simples.

Riscos

A má classificação envia entradas pelo caminho errado.
O classificador adiciona um passo e alguma latência.
A deriva de categorias ao longo do tempo degrada a precisão.

Quando não usar

Quando as entradas são homogêneas: basta um manipulador.
Quando as categorias não podem ser classificadas de forma confiável.
Quando o passo de classificação adicionado não compensa o ganho.

Tecnologias

Classifier modelsLangGraphModel routersRules engines

Exemplos

Rotear chamados de suporte a manipuladores de faturamento, técnico ou vendas.
Enviar perguntas simples a um modelo pequeno e as difíceis a um de raciocínio.
Direcionar diferentes tipos de documento a extratores específicos por tipo.

KPIs

Precisão de roteamento: Proporção de entradas enviadas ao manipulador/modelo correto; a métrica que define o valor do padrão.
Economia vs. usar sempre o melhor modelo: Dinheiro economizado ao rotear entradas fáceis para modelos mais baratos em vez do melhor para tudo.
Custo de roteamento errado: O dano posterior de rotas erradas; um roteamento errado pode custar muito mais que a economia buscada.
Sobrecusto de latência do roteador: Tempo que a própria decisão de roteamento adiciona antes de começar o trabalho real.

Modos de falha observados

Má classificação: o roteador envia uma entrada ao modelo ou rota errados, degradando a resposta.
Entradas ambíguas que não encaixam bem em nenhuma rota e são forçadas a uma deficiente.
O roteador vira gargalo ou ponto único de falha de cada requisição.
Deriva: a distribuição de entradas muda com o tempo e as categorias do roteador ficam obsoletas.

Lições aprendidas

Otimize pelo custo de um roteamento errado, não só pela precisão: algumas rotas erradas são muito mais caras que outras.
Adicione uma rota padrão / de fallback para entradas que não encaixem bem em nada.
Mantenha o roteador barato e rápido; se custa tanto quanto o trabalho, perde o sentido.
Monitore a deriva de entradas e reajuste as rotas quando a distribuição mudar.

FAQs

O que classifica a entrada?: Normalmente uma chamada leve ao LLM ou um modelo classificador dedicado; para casos claros, regras determinísticas podem rotear sem modelo.
Como o roteamento economiza custo?: Escalonando: as requisições fáceis vão a modelos baratos e rápidos e só as difíceis chegam a modelos de raciocínio caros, então você paga por capacidade só quando necessário.
E se o classificador errar?: Forneça uma rota padrão sensata e monitore os erros de rota; um manipulador de fallback e boa observabilidade limitam o impacto da má classificação.

Referências

Anthropic — Building Effective Agents (2024)