Você está ouvindo um podcast ou assistindo a um vídeo no YouTube em casa e, sem perceber, começa a ser reproduzido um som indetectável para você, mas que está enviando comandos para seus assistentes de IA. Em seguida, o assistente começa a compartilhar dados sensíveis com o atacante ou instala um malware. A gente já conhecia os ataques de injeção de prompts — agora, chega a injeção de prompts por som.
Parece ficção científica, mas é perfeitamente possível. Uma equipe de pesquisadores da China e de Singapura descobriu uma forma de criar sons maliciosos que podem “sequestrar” modelos de IA de voz, fazendo com que executem comandos sem que você perceba e sem que consiga impedir. Em declarações à IEEE Spectrum, o líder do estudo afirmou que “basta meia hora para treinar esse sinal e, como ele é independente do contexto, pode ser usado para atacar um modelo a qualquer momento, independentemente do que o usuário diga”.
Os autores testaram essa técnica contra treze modelos de IA, entre eles serviços da Microsoft e da Mistral. No teste, fizeram com que esses modelos realizassem buscas sensíveis, enviassem e-mails com informações do usuário e baixassem arquivos. Alcançaram uma taxa de sucesso entre 79% e 96%.
Os LALMs (grandes modelos de áudio-linguagem) possuem uma falha crítica de segurança. Como recebem instruções em formato de áudio, é possível injetar comandos maliciosos em sons manipulados. O pior é que esses sons não são vozes com instruções — o que seria relativamente fácil de detectar —, mas utilizam um método chamado “mistura convolucional”, que faz o som se passar por uma reverberação ou eco natural do ambiente.
Por que isso é importante
Um ataque desse tipo muda completamente as defesas que internalizamos ao longo do tempo (“não clique em links”, “não baixe coisas”, “não forneça seus dados”...). Algo tão inofensivo quanto deixar um vídeo do YouTube, um podcast ou um TikTok tocando ao fundo pode desencadear um ataque sem que sequer percebamos. E, se levarmos em conta que o poder dos agentes de IA — como o recém-anunciado Gemini Spark — está justamente em ter acesso a toda a nossa vida digital, um ataque desse tipo pode causar estragos.
Dar instruções prévias ao modelo com exemplos de comandos maliciosos para que ele os ignore reduz o sucesso do ataque em apenas 7%. Da mesma forma, pedir para a IA “refletir” sobre se sua resposta corresponde ao que o usuário realmente solicitou consegue detectar apenas 28% dos ataques. As medidas de segurança atuais não funcionam porque o áudio manipulado sequestra a “atenção” matemática do modelo, induzindo a IA a executar respostas com alta confiança e tornando impossível distinguir entre um comando legítimo do usuário e um ataque adversarial.
A parte “boa” é que, por enquanto, esse tipo de ataque só conseguiu ser realizado com modelos de pesos abertos. No entanto, os pesquisadores observaram que, uma vez treinado o áudio malicioso, é possível transferi-lo para comprometer modelos fechados.
Como dissemos, os autores colocaram isso à prova com serviços da Mistral e da Microsoft. Até o momento, a Mistral não se pronunciou, mas a Microsoft enviou o seguinte comunicado à IEEE Spectrum:
“Agradecemos o trabalho dos pesquisadores por aprofundar a compreensão desse tipo de técnica. Este estudo avalia a resiliência do modelo por meio de interações controladas e diretas com o próprio modelo, o que contribui para definir nossa abordagem no desenvolvimento dessa resiliência. Na prática, os modelos de IA costumam ser integrados a aplicativos de usuário, e oferecemos aos desenvolvedores ferramentas e orientações que podem ser utilizadas para implementar camadas adicionais de proteção que ajudem a proteger os usuários.”
Imagem | Yassine Ait Tahit (Unsplash)
Este texto foi traduzido/adaptado do site Xataka Espanha.
Ver 0 Comentários