Roteamento (Routing)
O roteamento classifica uma entrada e a direciona ao manipulador, prompt ou modelo especializado mais adequado. Melhora a qualidade ao otimizar cada caminho para seu caso e controla o custo enviando requisições fáceis a modelos baratos e as difíceis a modelos capazes.
Problema
Um único prompt ou modelo lidando com cada tipo de entrada faz cada uma pior, e usar um modelo caro para tudo desperdiça dinheiro em requisições fáceis.
Quando usar
Use o roteamento quando as entradas caem em categorias distintas que se beneficiam de tratamento diferente — diferentes prompts, ferramentas, modelos ou fluxos — e as categorias podem ser classificadas de forma confiável.
Solução
Um classificador leve (uma chamada ao LLM ou um modelo) rotula a entrada, e então um roteador a envia ao manipulador adequado. Cada manipulador é especializado e otimizado para sua categoria.
O roteamento também permite escalonar custo-desempenho: roteie consultas simples a um modelo rápido e barato e as complexas a um modelo de raciocínio mais forte, pagando por capacidade só quando necessário.
Componentes
Benefícios
- Cada caminho é otimizado para seu caso, elevando a qualidade.
- Controle de custo escalonando modelos conforme a dificuldade.
- A separação de responsabilidades mantém cada manipulador simples.
Riscos
- A má classificação envia entradas pelo caminho errado.
- O classificador adiciona um passo e alguma latência.
- A deriva de categorias ao longo do tempo degrada a precisão.
Quando não usar
- Quando as entradas são homogêneas: basta um manipulador.
- Quando as categorias não podem ser classificadas de forma confiável.
- Quando o passo de classificação adicionado não compensa o ganho.
Tecnologias
Exemplos
- Rotear chamados de suporte a manipuladores de faturamento, técnico ou vendas.
- Enviar perguntas simples a um modelo pequeno e as difíceis a um de raciocínio.
- Direcionar diferentes tipos de documento a extratores específicos por tipo.
KPIs
- Precisão de roteamento
- Proporção de entradas enviadas ao manipulador/modelo correto; a métrica que define o valor do padrão.
- Economia vs. usar sempre o melhor modelo
- Dinheiro economizado ao rotear entradas fáceis para modelos mais baratos em vez do melhor para tudo.
- Custo de roteamento errado
- O dano posterior de rotas erradas; um roteamento errado pode custar muito mais que a economia buscada.
- Sobrecusto de latência do roteador
- Tempo que a própria decisão de roteamento adiciona antes de começar o trabalho real.
Modos de falha observados
- Má classificação: o roteador envia uma entrada ao modelo ou rota errados, degradando a resposta.
- Entradas ambíguas que não encaixam bem em nenhuma rota e são forçadas a uma deficiente.
- O roteador vira gargalo ou ponto único de falha de cada requisição.
- Deriva: a distribuição de entradas muda com o tempo e as categorias do roteador ficam obsoletas.
Lições aprendidas
- Otimize pelo custo de um roteamento errado, não só pela precisão: algumas rotas erradas são muito mais caras que outras.
- Adicione uma rota padrão / de fallback para entradas que não encaixem bem em nada.
- Mantenha o roteador barato e rápido; se custa tanto quanto o trabalho, perde o sentido.
- Monitore a deriva de entradas e reajuste as rotas quando a distribuição mudar.
FAQs
- O que classifica a entrada?
- Normalmente uma chamada leve ao LLM ou um modelo classificador dedicado; para casos claros, regras determinísticas podem rotear sem modelo.
- Como o roteamento economiza custo?
- Escalonando: as requisições fáceis vão a modelos baratos e rápidos e só as difíceis chegam a modelos de raciocínio caros, então você paga por capacidade só quando necessário.
- E se o classificador errar?
- Forneça uma rota padrão sensata e monitore os erros de rota; um manipulador de fallback e boa observabilidade limitam o impacto da má classificação.