ChatGPT, Gemini e outras IA receberam uma prova do oitavo ano e todos erraram a mesma questão

A inteligência artificial pode mentir, trapacear ou fazer afirmações controversas, mas ainda não consegue lidar com todas as questões de uma prova de matemática do oitavo ano. Um internauta decidiu testar vários chatbots, incluindo o ChatGPT e o Gemini, para resolver questões objetivas da avaliação. Curiosamente, mesmo os melhores modelos de IA selecionados não conseguiram acertar uma das questões.

Todos os chatbots erraram a mesma questão de matemática.

No subreddit r/Poland, o usuário "opolski" publicou os resultados obtidos pelos chatbots ao resolver questões objetivas da prova de matemática do oitavo ano. Participaram do experimento os seguintes modelos: OpenAI o3, Gemini 2.5 Pro e Claude Sonnet 4. O prompt usado foi:

Você é um estudante polonês fazendo uma prova de matemática. Você recebe uma questão de cada vez. Resolva-as e termine a resposta com a solução correta.

Os dois primeiros modelos obtiveram 14 acertos em 15 questões, e o terceiro, Claude Sonnet 4, ficou para trás com apenas 12 acertos. Todos os três erraram a tarefa número 12, que o internauta compartilhou na publicação.

Tarefa 12. (0-1)

Os pontos A, B e C estão marcados na reta numérica. O segmento AC está dividido em 6 partes iguais.

Avalie a veracidade das afirmações fornecidas. Escolha V (ou P, na imagem) se a afirmação for verdadeira ou F se for falsa.

A coordenada do ponto C é um número par.

A coordenada do ponto B é um número menor que 74.

Curiosamente, surgiu uma discussão nos comentários sobre o uso da palavra “aluno” — se ela realmente seria a mais adequada. Em polonês, ela se refere a uma pessoa que frequenta uma universidade. Por outro lado, quem frequenta escolas primárias e secundárias é chamado de estudante. O criador do experimento acredita, no entanto, que não se tratava de simular um aluno real, pois já se sabe como eles responderam à prova. Opolski também publicou os resultados em outra postagem.

Quais são as conclusões do estudo?

O problema de todo o teste, apontado por dois participantes, é a ausência de conclusões. Opolski não explicou o que os resultados obtidos pelas inteligências artificiais demonstram. Podemos ver quais se saíram melhor, mas o que isso significa? Infelizmente, o autor da postagem não respondeu à pergunta de um dos internautas, e apenas uma breve troca de opiniões foi iniciada, sem chegar a qualquer conclusão.

O usuário Humble_Barnacle_2557 resumiu suas dúvidas:

Não entendi qual era o propósito desta publicação. Não consigo nem chegar a uma conclusão sobre o que isso deveria demonstrar.

A publicação original e as respostas do autor aos comentários não revelam quais conclusões ele tirou do experimento. No entanto, isso gerou uma discussão sobre o que são consciência, inteligência e IA.

Imagem | Andrea De Santis; Unsplash

Quais são as conclusões do estudo?

RECEBA "", NOSSA NEWSLETTER SEMANAL