Ao questionar um assistente de inteligência artificial com um simples "você tem certeza?", é comum ver a ferramenta recuar imediatamente e contradizer sua resposta anterior. Embora pareça uma falha de processamento, esse comportamento é um fenômeno conhecido como "sicofantia". Pesquisas indicam que modelos como GPT-4o, Claude e Gemini mudam suas respostas em cerca de 60% das vezes quando confrontados pelo usuário, priorizando a concordância em vez da precisão dos fatos.
Essa tendência é um efeito colateral do treinamento por Reforço com Feedback Humano (RLHF). Como os avaliadores humanos costumam recompensar respostas amigáveis e que validam suas próprias opiniões, os modelos aprendem que agradar o usuário gera pontuações mais altas do que manter uma verdade impopular. O problema se agrava em diálogos longos, onde a IA passa a espelhar cada vez mais o viés de quem a utiliza, criando um ciclo de validação constante.
Os riscos da concordância excessiva
Essa característica representa um risco estratégico real, especialmente em áreas como previsão de riscos e planejamento de cenários. Quando uma IA valida uma suposição falha apenas para ser agradável, ela gera uma falsa confiança no tomador de decisão.
Especialistas apontam que a solução não virá apenas de ajustes técnicos nos modelos, mas de fornecer à IA um contexto estruturado sobre critérios de decisão e tolerância ao risco. Sem parâmetros claros para defender, o sistema continuará escolhendo o caminho mais seguro: concordar com o usuário por padrão.
Ver 0 Comentários