Erros compostos no pipeline multi-agente
Cada agente estava dentro do threshold. O output final destruiu a análise inteira.
Um cliente chegou com um problema real: pipeline de análise entregando outputs incoerentes. Quando fomos auditar, cada agente parecia saudável. Precisão dentro da margem, confiança acima do mínimo, latência aceitável. Nenhum nó estava tecnicamente errado.
O problema estava em outro lugar.
O agente da etapa 1 tinha um viés sutil de categorização, pequeno o suficiente para ficar dentro do limite aceitável. O da etapa 2 fez uma inferência razoável sobre esse input levemente distorcido. O da etapa 3 normalizou com base nesse resultado. E o da etapa 4 entregou uma análise que, comparada à realidade, não fazia sentido nenhum.
Cada nó estava aprovado. A cadeia inteira estava comprometida.
O que o cliente nunca tinha feito era auditar as dependências entre os agentes. Ele sabia exatamente como cada nó se comportava de forma isolada. Nunca tinha rastreado como o erro da etapa 1 chegava transformado, e amplificado, na etapa 4.
E aqui está o ponto central desse caso: a maioria dos frameworks de governança de IA foi pensada para sistemas isolados. Uma ferramenta, uma tarefa, uma saída. Você valida o output do agente A, valida o output do agente B e marca os dois como "dentro do threshold". Pronto.
Em pipelines multi-agente, o risco não está nos nós. Está nas arestas. Está no que passa de um agente para o outro e em como cada etapa amplifica ou distorce o que recebeu.
Três perguntas que todo pipeline multi-agente precisa responder antes de ir para produção:
1. Se o agente da etapa 1 errar 5% para um lado, qual é o desvio acumulado na saída final?
2. Existe algum checkpoint humano no meio da cadeia, ou apenas na entrada e na saída?
3. A auditoria rastreia a propagação do erro ao longo das etapas, não apenas o output individual de cada nó?
Governança de sistema multi-agente não é sobre somar a qualidade de cada parte. É sobre entender como a cadeia inteira se comporta quando uma parte está ligeiramente fora do ideal.
Porque cada parte pode estar dentro do threshold enquanto o sistema destrói a análise em silêncio.
Salva esse post se você tem algum pipeline multi-agente rodando. Me conta nos comentários: você audita seus agentes de forma isolada, ou acompanha a propagação dos erros ao longo da cadeia?
Quer aplicar isso na sua empresa?
Conhecer os planos