Alguém convidou ChatGPT, Gemini, Claude e companhia para jogar um jogo de estratégia; cada um desenvolveu uma personalidade bem distinta

Durante 36 horas, sete dos modelos de IA mais avançados do mundo se enfrentaram em rodadas de Diplomacia, um jogo de tabuleiro estratégico semelhante ao Risk. Foi um espelho que revelou as verdadeiras personalidades algorítmicas de ChatGPT, Claude, Gemini e companhia.

Por que é importante

Alex Duffy, programador e pesquisador, criou a Diplomacia da IA como um novo parâmetro para avaliar modelos de IA. O experimento acabou sendo algo mais, uma espécie de teste de Rorschach tecnológico que expôs tanto seus vieses de treinamento quanto nossas próprias projeções.

O que aconteceu

Em dezenas de jogos transmitidos no Twitch, cada modelo desenvolveu suas próprias estratégias de uma forma que parecia refletir personalidades humanas distintas.

O o3 da OpenAI era bastante maquiavélico, forjando falsas alianças ao longo de 40 turnos e criando "realidades paralelas" para diferentes jogadores.
Claude 4 Opus era uma espécie de pacifista autodestrutivo, recusando-se a trair mesmo quando isso garantia sua derrota.
O R1 da DeepSeek exibiu um estilo extremamente teatral, com ameaças não provocadas, como "Sua frota queimará no Mar Negro esta noite".
O Gemini 2.5 Pro provou ser um estrategista sólido, mas mais vulnerável a manipulações sofisticadas.
O QwQ-32b do Alibaba sofreu de paralisia de análise, escrevendo mensagens diplomáticas de 300 palavras que lhe custaram eliminações precoces.

O contexto

Diplomacia é um jogo de estratégia europeu ambientado em 1901, onde sete potências competem pelo domínio do continente. Ao contrário de Risco, exige negociação constante, construção de alianças e, inevitavelmente, traições calculadas. Não há dados ou acaso, apenas pura estratégia e manipulação psicológica.

Entrelinhas

Cada "personalidade" algorítmica reflete os valores de seus criadores.

Claude defende os princípios de segurança da Anthropic mesmo quando isso lhe custa a vitória.
A O3 demonstra a eficiência implacável valorizada no Vale do Silício.
DeepSeek exibe um drama que reflete influências culturais específicas.

E há algo mais profundo acontecendo. Essas IAs não "escolhem" ser cooperativas ou competitivas. Elas reproduzem padrões a partir de seus dados de treinamento. Suas "decisões" são nossos vieses algorítmicos, convertidos em código.

Sim, mas...

Interpretamos traições onde há "apenas" otimização de parâmetros e vemos lealdade onde há restrições de treinamento. É por isso que o experimento também revela mais sobre nós do que sobre os modelos: antropomorfizamos comportamentos porque precisamos entender a IA em termos humanos.

Em perspectiva

O experimento de Duffy vale mais do que qualquer referência porque abriu uma janela para como projetamos personalidade em sistemas que operam por padrões estatísticos. O desenrolar dos jogos foi um lembrete de que a IA não tem uma agenda oculta; ela apenas reflete a nossa.

A propósito, o experimento continua sendo transmitido no Twitch para que qualquer um possa assistir como nossas criações digitais funcionam de acordo com as regras que nós mesmos escrevemos em seus algoritmos.