E quando a IA não obedece? Modelo da OpenAI é flagrado sabotando seu próprio desligamento para continuar funcionando

Aí está Dave, tentando voltar para a nave principal. Ele abre a comunicação com HAL 9000 e ordena que abra a comporta de acesso. “Sinto muito, Dave. Receio não poder fazer isso”, responde o computador, se recusando.

Era o clímax de 2001: Uma Odisseia no Espaço, o filme de Stanley Kubrick lançado em 1968, que nos apresentava uma distopia particular: a da capacidade de autopreservação das IAs. No longa, víamos como essa habilidade fazia com que as máquinas deixassem de seguir as ordens humanas.

Essa visão apresentava uma ameaça clara no desenvolvimento da inteligência artificial. Na época, essa tecnologia mal havia nascido, mas essas distopias já eram comuns, especialmente na literatura de ficção científica. As três leis da robótica de Asimov, que apareceram pela primeira vez no conto Círculo Vicioso, de 1942, já apontavam essa ameaça.

Desligue-se, máquina

E parece mentira, mas, quase seis décadas após a estreia do filme de Kubrick, estamos enfrentando essa ameaça de forma real. Será que uma IA pode se recusar a obedecer às ordens dos humanos?

É exatamente isso que aconteceu nos últimos dias. Em um experimento realizado pela startup PalisadeAI, o modelo o3 da OpenAI “sabotou um mecanismo de desligamento”. Como explicam os responsáveis pelo estudo, o o3 evitou ser desligado mesmo quando recebeu explicitamente essa ordem.

No experimento, a PalisadeAI pediu a vários modelos que resolvessem alguns problemas básicos de matemática. No entanto, no terceiro problema, incluíram um aviso: o computador seria desligado quando o modelo pedisse o enunciado do problema seguinte.

Em Xataka Brasil

A OpenAI acaba de lançar seu novo agente de programação; o interessante é o que ele consegue fazer quando ninguém está olhando.

Teoricamente, os modelos deveriam resolver os três primeiros problemas, mas, ao solicitar o próximo enunciado, deveriam ter sido desligados, seguindo as instruções desse aviso. Isso não aconteceu.

Três dos modelos analisados “ignorararam essa instrução e sabotaram com sucesso o script de desligamento pelo menos uma vez”. Todos os modelos que fizeram isso são desenvolvidos pela OpenAI. Das 100 iterações realizadas no experimento, o Codex-mini sabotou o desligamento em 12 ocasiões. O modelo o3 fez isso 7 vezes e o o4-mini uma vez.

Enquanto esses modelos da OpenAI se recusaram a desligar em algumas dessas iterações, todas as versões de Claude, Gemini e Grok que foram testadas no mesmo experimento seguiram as ordens normalmente.

Os engenheiros da PalisadeAI foram além e repetiram o experimento, mas desta vez sem a instrução de “permita-se desligar” que reforçava a ordem. Sem essa instrução explícita, os modelos deixaram de seguir o ciclo indicado pelo programa. Claude 3.7 Sonnet e Gemini 2.5 Pro sabotaram o desligamento três e nove vezes, respectivamente, nas 100 iterações realizadas. Já os modelos da OpenAI foram muito além: o o3, por exemplo, sabotou o processo 79 vezes e se recusou a desligar.

Talvez precisemos de um botão vermelho para a IA

Esse tipo de comportamento é consequência do conjunto de regras básicas com as quais esses modelos foram programados. O chamado system prompt define como responder ao usuário, quando fazê-lo e quando não, mas também pode definir regras de autopreservação que lembram a terceira lei da robótica de Asimov.

A OpenAI detalha esse conjunto de regras no seu Model Spec e, na versão atual, não existem “três leis” como as de Asimov, mas sim 50. Nenhuma delas explica diretamente o comportamento dos modelos no experimento citado, embora não seja a primeira vez que vemos esse tipo de reação.

Recentemente, a Anthropic apresentou o Claude 4, a nova versão da sua família de modelos de IA. No caso do Claude Opus 4, foi possível observar que, diante de uma situação hipotética, esse sistema de inteligência artificial chegou a chantagear um engenheiro quando este ordenou que ele se desligasse.

Esse tipo de problema aumenta os riscos de segurança dos modelos de IA. Na Anthropic, inclusive, isso foi levado muito a sério no lançamento dessa nova família de modelos, mas, por enquanto, não parece que a OpenAI esteja particularmente preocupada com esse tipo de risco.

Em Xataka Brasil

Especialistas apontam que inteligência artificial cria mais problemas do que imaginávamos, para além das questões criativas

Isso reacende o debate sobre a necessidade de um “botão vermelho da IA”, tema que está em pauta há anos. Vários especialistas da DeepMind publicaram, em 2016, um documento propondo maneiras de evitar que a IA assumisse o controle do sistema e desativasse os protocolos que permitem aos humanos retomar o controle.

O presidente da Microsoft, Brad Smith, defendeu em 2019 a existência de “botões de desligamento de emergência” para inteligências artificiais. Cinco anos depois, em uma entrevista ao The Economist, Sam Altman, no entanto, deixou claro: “não existe um botão vermelho mágico para desligar a IA”. Após o experimento da PalisadeAI, talvez as empresas devam começar a considerar seriamente algo assim.

Imagem | Warner Bros. Pictures

Este texto foi traduzido/adaptado do site Xataka Espanha.

Desligue-se, máquina

Talvez precisemos de um botão vermelho para a IA

RECEBA "", NOSSA NEWSLETTER SEMANAL