Mythos, a nova IA da Anthropic, encontra vulnerabilidades em todos os sistemas operacionais do mundo

No dia 24 de fevereiro de 2026, os engenheiros da Anthropic (empresa que faz o Claude) puderam testar pela primeira vez seu novo modelo de inteligência artificial, ao qual deram o nome de Claude Mythos Preview. Assim que o fizeram, perceberam uma coisa:

“demonstrou um salto espetacular em suas capacidades cibernéticas em relação a modelos anteriores, incluindo a capacidade de descobrir e explorar de forma autônoma vulnerabilidades zero-day nos principais sistemas operacionais e navegadores web do mercado”.

Essa descoberta deixou claro para os responsáveis da Anthropic que, embora essa capacidade torne a nova IA muito valiosa para fins defensivos, também representa riscos evidentes caso o modelo seja disponibilizado globalmente. Afinal, um cibercriminoso poderia aproveitá-la para encontrar vulnerabilidades em todo tipo de sistemas e explorá-las.

A empresa detalhou essa análise do Mythos como uma ameaça à cibersegurança em uma publicação em seu blog e destacou como a IA encontrou uma vulnerabilidade (agora corrigida) que estava presente há 27 anos no OpenBSD, um sistema operacional justamente reconhecido por sua altíssima segurança. Houve mais exemplos, e todos deixavam clara a conclusão: o Mythos é poderoso demais para ser usado pelo público em geral.

O melhor da história, segundo os benchmarks

O Mythos é superior em todos os benchmarks. Fonte: Anthropic

A Anthropic publicou um relatório extremamente detalhado sobre esse modelo, com sua “system card”. Entre os dados apresentados está, por exemplo, o desempenho do Mythos em benchmarks, nos quais ele supera com folga o GPT-5.4, o Gemini 3.1 Pro e também o Claude Opus 4.6, que até então era o melhor modelo do mundo em quase todos os testes de desempenho. Embora, em alguns casos, o avanço não seja tão expressivo, em outros, como no USAMO (resolução de problemas matemáticos), o Mythos atinge praticamente a perfeição.

Nessa “system card”, também se explica em detalhes como o Claude Mythos Preview apresenta uma taxa de alucinações drasticamente inferior à do Claude Opus 4.6 e de modelos anteriores. Ele também é capaz de dizer “não sei” quando não possui informação suficiente para responder, algo que reduz as alucinações causadas por excesso de confiança.

Em Xataka Brasil

Pentágono ameaça cortar acesso da Anthropic se empresa continuar a garantir segurança de usuários

O documento adverte sobre um novo fenômeno: quando o modelo falha em algumas tarefas complexas, as “alucinações” não são erros óbvios, mas sim falhas técnicas extremamente sutis e bem fundamentadas. Isso é perigoso porque a resposta parece totalmente correta até mesmo para especialistas, o que exige uma verificação muito profunda.

Projeto Glasswing

Esse poder e capacidade acarretaram que o modelo tenha sido disponibilizado apenas por meio de um programa “defensivo” chamado Projeto Glasswing, que será exclusivo para alguns parceiros tecnológicos da Anthropic. Especificamente: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, a Fundação Linux, Microsoft, NVIDIA e Palo Alto Networks. Todas elas terão o privilégio (e a responsabilidade) de acessar o Claude Mythos Preview para identificar vulnerabilidades e exploits e corrigi-los antes que agentes mal-intencionados possam explorá-los.

O Mythos Preview “é apenas o começo”. Embora esse modelo seja o mais avançado já visto até agora, ao menos segundo os benchmarks e dados apresentados pela Anthropic, a empresa afirma que “não vemos razões para acreditar que o Mythos Preview seja o ponto em que as capacidades de cibersegurança dos modelos de linguagem atinjam seu limite”. Eles garantem que esperam que os modelos continuem melhorando nos próximos meses e anos, ainda que este novo modelo já esteja em outro patamar.

Este texto foi traduzido/adaptado do site Xataka Espanha.

O melhor da história, segundo os benchmarks

Projeto Glasswing

RECEBA "", NOSSA NEWSLETTER SEMANAL