Human-in-the-loop e a calibração perdida
Desenhamos o protocolo de revisão humana para os casos que a IA não resolve. Não calculamos que esses seriam exatamente os casos que o time perdeu a capacidade de resolver.
Todo protocolo de human-in-the-loop carrega uma premissa silenciosa: o humano que recebe a exceção ainda está calibrado para julgá-la.
Faz sentido no papel. O problema é o que acontece ao longo do tempo.
Quando a IA assume o fluxo principal, as decisões rotineiras saem das mãos do time. O que sobra para revisão humana são os casos mais complexos, os borderline, os que não couberam em nenhuma regra. Exatamente os que exigem mais julgamento.
Só que julgamento sem exercício perde calibração. E os momentos de revisão ficam cada vez mais espaçados conforme a IA escala e cobre mais casos.
Quando a exceção real chega, o humano responsável pela análise passou meses sem resolver esse tipo de problema de forma independente. O protocolo pressupõe uma capacidade que foi sendo silenciosamente corroída pelo próprio sistema que deveria apoiá-la.
Não chamo isso de negligência nem de falha de gestão. É o efeito colateral de um design que trata o humano como ponto de controle fixo, sem considerar que o controle depende de uma habilidade que precisa ser exercitada para existir.
O protocolo foi desenhado para o humano de 18 meses atrás. O que opera hoje é outro, formado em condições diferentes, com muito menos repetição nos casos críticos.
Isso precisa entrar no design antes do deploy, não aparecer como surpresa na primeira crise.
Me conta nos comentários: a sua empresa tem algum mecanismo para manter o julgamento humano calibrado nos casos que a IA escalona? Quero entender como times diferentes estão lidando com essa degradação silenciosa de capacidade.
Quer aplicar isso na sua empresa?
Conhecer os planos