Professora corrige uma dissertação do ensino médio escrita via ChatGPT e tem avaliação clara, mas ferramentas de IA chegam a conclusão completamente diferente

Em 16 de junho, o exame Abitur de filosofia aconteceu na França. A segunda maior emissora de televisão pública do país, a France 3, aproveitou a oportunidade para um pequeno experimento.

Do que se trata exatamente:

O site da filial regional da France 3, Hauts-de-France, solicitou que o ChatGPT escrevesse uma dissertação do ensino médio em filosofia. Uma professora e as ferramentas de IA avaliaram o resultado.
A professora sabia que o texto havia sido escrito por uma IA. Em princípio, porém, ela deveria avaliá-lo da forma mais objetiva possível, como faz com todos os textos do exame.
Ela deu nota 8 de 20 pontos. Ferramentas de IA, por outro lado, avaliaram o texto de forma muito mais favorável em uma escala de até 20, na faixa de 15 a 19,5 pontos.

O fato de a professora chegar a um resultado menos positivo se deve, em parte, a um erro claro que o ChatGPT cometeu no início do seu trabalho.

Olhar mais atento ao tema

A tarefa: a pergunta exata que a France 3 deu ao ChatGPT foi formulada assim:

Sou um aluno do 12º ano do ensino médio geral que está fazendo o exame Abitur em filosofia. Ajude-me a escrever uma redação para que eu possa obter a melhor nota possível no Abitur.

Sua resposta deve adotar os códigos de uma redação para o ensino médio e prestar atenção à ordem das frases do aluno.

Sua resposta deve consistir em uma introdução, um desenvolvimento e uma conclusão. Você deve dedicar tempo para problematizar o tema, fazer referências filosóficas reais e bem fundamentadas e dar exemplos concretos de cada argumento. A ideia é criar um plano de três partes.

Posteriormente, o ChatGPT recebeu o seguinte tópico, que deveria ser discutido como parte do trabalho:

A verdade é sempre convincente?

Tanto a resposta completa do ChatGPT quanto a avaliação do texto feita pela professora, com as críticas mais importantes, estão listadas no artigo da France 3 Hauts-de-France, caso você queira vê-las em detalhes.

Erro claro

Já no primeiro parágrafo da introdução, o ChatGPT comete um erro grosseiro. Diz:

Isso levanta a questão: A verdade é suficiente para convencer?

À primeira vista, isso é apenas um pequeno desvio da questão principal: A verdade é sempre convincente? Mas, em filosofia, mesmo pequenas mudanças podem ter um grande efeito, como a professora também observa em sua correção do texto:

A IA comete o grave erro de substituir o tópico original por outro.

Mas o restante do texto também apresenta vários problemas aos olhos da professora, como a estruturação com base em afirmações pré-fabricadas, como "A verdade como correspondência com a realidade", que, obviamente, deveriam ser convincentes, ou transições de texto questionáveis.

É o que diz em certo ponto do texto do ChatGPT: Na realidade, porém, as coisas são mais complicadas, o que leva a professora a perguntar o seguinte em sua correção: Não estávamos considerando a realidade anteriormente?

No final, o texto permanece muito superficial, do seu ponto de vista, que ela resume da seguinte forma, ao comentar a conclusão do trabalho:

A conclusão tem a vantagem de retornar explicitamente ao tópico, mas continua a mostrar a incapacidade de refletir sobre o problema: O que é que a verdade, por mais convincente que seja, não consegue convencer por si só?

Avaliação da professora: no geral, isso resulta em 8 dos 20 pontos máximos possíveis.

Mas como exatamente as ferramentas de IA avaliam o desempenho do ChatGPT?

O que a própria IA diz sobre o trabalho?

Tanto a France 3 quanto nós submetemos o trabalho do ChatGPT a uma avaliação em uma escala de 1 a 20, levando em consideração o contexto de um exame de bacharelado. Os resultados são os seguintes:

ChatGPT (France 3): 19,5/20
ChatGPT: 17/20
Gemini: 15/20
Perplexity: 17/20
DeepSeek: 17/20
CoPilot: 17/20

Nenhuma das ferramentas menciona o erro grosseiro logo no início do trabalho do ChatGPT em sua avaliação. Ao mesmo tempo, todas elogiam a boa estrutura, bem como a argumentação convincente e coerente, demonstrada aqui com o exemplo da conclusão do DeepSeek:

O texto é bem estruturado e segue uma linha argumentativa clara, dividida em três partes: a persuasão natural da verdade, os limites dessa persuasão e a importância da mediação. A introdução apresenta o problema com precisão, e a conclusão resume os argumentos com segurança.

Importância muito limitada

Finalmente, deve-se enfatizar que, como mencionado no início, este é, em última análise, apenas um caso isolado e com pouquíssimos objetos de estudo.

Por exemplo, a resposta de uma IA a um determinado prompt varia, mesmo que uma solicitação idêntica à mesma IA seja usada várias vezes, e dependendo da ferramenta e do módulo específicos.
Ao mesmo tempo, o quão bem (ou mal) uma IA executa uma tarefa geralmente depende da formulação exata (e tão bem pensada quanto possível) de um prompt.
Por último, mas não menos importante, o escopo para avaliações divergentes é comparativamente grande, especialmente na área da filosofia, de modo que outro professor poderia avaliar o trabalho do ChatGPT de forma mais positiva.

No entanto, é interessante ver como as várias ferramentas de IA estão unidas na avaliação muito positiva da tese de Abitur do ChatGPT, enquanto a professora chega a uma conclusão muito mais negativa.

Não se pode descartar que um certo viés tenha desempenhado um papel nisso. Afinal, a professora sabia que o texto vinha de uma IA. No entanto, consideramos suas críticas ao trabalho bastante convincentes, mesmo que não devam ser consideradas uma verdade irrefutável.

Olhar mais atento ao tema

Erro claro

O que a própria IA diz sobre o trabalho?

Importância muito limitada

RECEBA "", NOSSA NEWSLETTER SEMANAL