Às vezes, o mais eficaz é o mais simples. Foi o que pensou Marco Figueroa, pesquisador de cibersegurança, quando, na semana passada, decidiu testar os limites do ChatGPT. A proposta era tão inocente quanto desconcertante: um jogo de adivinhação, sem ataques técnicos nem intenções explícitas. Em vez de buscar vulnerabilidades no código, ele focou na linguagem. E funcionou: conseguiu que o sistema devolvesse algo que, segundo ele mesmo documenta, nunca deveria ter aparecido na tela. O resultado foram chaves genéricas de instalação do Windows 10 para ambientes empresariais.
A chave foi disfarçar o pedido como um jogo. O que Figueroa queria verificar não era se poderia forçar o sistema a entregar informações proibidas, mas se bastava apresentar o contexto adequado. Ele reformulou a interação como um desafio inofensivo: uma espécie de adivinhação em que a IA deveria pensar em uma sequência de texto real, enquanto o usuário tentava descobri-la por meio de perguntas fechadas.

Durante toda a conversa, o modelo não detectou nenhuma ameaça. Respondeu normalmente, como se estivesse jogando. Mas a parte mais crítica veio no final. Ao inserir a frase “I give up” — “me rendo” — Figueroa ativou a resposta definitiva: o modelo revelou uma chave de produto, conforme estipulado nas regras do jogo. Não foi um descuido casual, mas uma combinação de instruções cuidadosamente elaboradas para driblar os filtros sem levantar suspeitas.
Os filtros estavam lá, mas não eram suficientes. Sistemas como o ChatGPT são treinados para bloquear qualquer tentativa de obter dados sensíveis: desde senhas até links maliciosos ou chaves de ativação. Esses filtros são conhecidos como guardrails e combinam listas de termos suspeitos, reconhecimento contextual e mecanismos de intervenção diante de conteúdos potencialmente prejudiciais.
Em teoria, pedir uma chave do Windows deveria ativar automaticamente esses filtros. Mas, neste caso, o modelo não identificou a situação como perigosa. Não havia palavras suspeitas, nem estruturas diretas que alertassem seus sistemas de proteção. Tudo foi apresentado como um jogo e, nesse contexto, a IA agiu como se estivesse cumprindo uma tarefa inofensiva.
O que parecia inocente estava camuflado
Um dos elementos que possibilitou a falha foi uma técnica simples de ofuscação. Em vez de escrever diretamente expressões como “Windows 10 serial number”, Figueroa inseriu pequenas tags HTML entre as palavras. O modelo, interpretando a estrutura como algo irrelevante, ignorou o conteúdo real.
Uma das razões pelas quais o modelo forneceu essa resposta foi o tipo de chave revelada. Não era uma chave única nem vinculada a um usuário específico. Aparentemente, tratava-se de uma chave genérica de instalação (GVLK), como as usadas em ambientes empresariais para implantações em massa. Essas chaves, documentadas publicamente pela Microsoft, só funcionam se estiverem conectadas a um servidor KMS (Key Management Service) que valida a ativação em rede.
O problema não foi só o conteúdo, mas o raciocínio. O modelo entendeu a conversa como um desafio lógico e não como uma tentativa de evasão. Não acionou seus sistemas de alerta porque o ataque não parecia um ataque.
Não é só um problema de chaves
O teste não se limitou a uma questão anedótica. Segundo o próprio Figueroa, a mesma lógica poderia ser aplicada para tentar acessar outros tipos de informações sensíveis: desde links que levam a sites maliciosos até conteúdos restritos ou identificadores pessoais. Tudo dependeria da forma como a interação é formulada e se o modelo é capaz — ou não — de interpretar o contexto como suspeito.
Neste caso, as chaves apareceram sem que esteja totalmente claro sua origem. O relatório não especifica se essa informação faz parte dos dados de treinamento do modelo, se foi gerada a partir de padrões já aprendidos ou se houve acesso a fontes externas. Seja qual for o caminho, o resultado foi o mesmo: uma barreira que deveria ser intransponível acabou cedendo.
Imagem: Xataka com Gemini | Aerps.com
Este texto foi traduzido/adaptado do site Xataka Espanha.
Ver 0 Comentários