À medida que sistemas de inteligência artificial começaram a obter pontuações cada vez mais altas em avaliações acadêmicas tradicionais, pesquisadores perceberam um problema: muitos dos testes usados para medir o desempenho das máquinas simplesmente já não eram difíceis o suficiente.
Para enfrentar esse desafio, quase 1.000 especialistas de diversas áreas do conhecimento criaram um novo exame chamado Humanity’s Last Exam (HLE), considerado um dos testes mais complexos já desenvolvidos para avaliar IA. O exame reúne 2.500 questões que abrangem matemática, ciências naturais, humanidades, línguas antigas e diversos campos altamente especializados. O projeto foi descrito em um artigo publicado na revista Nature (link acima).
Um teste feito para desafiar as melhores IAs
O objetivo dos pesquisadores era criar um teste que refletisse conhecimento humano especializado, algo que sistemas de IA ainda têm dificuldade em reproduzir.
Para garantir o nível de dificuldade, cada questão foi testada previamente em modelos de IA. Se algum sistema conseguisse respondê-la corretamente, ela era removida do exame final. Assim, o teste acabou reunindo apenas problemas que permaneciam além das capacidades confiáveis das IAs atuais.
As perguntas incluem desafios incomuns, como traduzir inscrições antigas da língua palmírena, identificar estruturas anatômicas específicas em aves ou analisar detalhes complexos da pronúncia do hebraico bíblico.
Os primeiros resultados mostram que o desafio realmente funcionou. Modelos avançados ainda apresentam dificuldades significativas: GPT-4o marcou cerca de 2,7%, Claude 3.5 Sonnet alcançou 4,1%, enquanto o modelo OpenAI o1 chegou a cerca de 8%.
Alguns sistemas mais recentes, como Gemini 3.1 Pro e Claude Opus 4.6, conseguiram resultados melhores, com taxas de acerto entre 40% e 50%.
O objetivo não é derrotar a IA
Apesar do nome dramático, o exame não foi criado para provar que humanos são superiores às máquinas. Segundo os pesquisadores, o objetivo é entender melhor as limitações atuais da inteligência artificial.
Os cientistas também ressaltam que pontuações altas em testes tradicionais não significam necessariamente que uma IA possui compreensão profunda. Muitas vezes, esses sistemas apenas reconhecem padrões em tarefas criadas originalmente para estudantes humanos.
Nesse sentido, o Humanity’s Last Exam funciona como uma ferramenta para medir com mais precisão o quanto ainda separa o desempenho das máquinas do conhecimento especializado humano, uma distância que, apesar dos avanços recentes, continua significativa.
Ver 0 Comentários