Professora corrige uma dissertação do ensino médio escrita via ChatGPT e tem avaliação clara, mas ferramentas de IA chegam a conclusão completamente diferente

Um caso interessante em que, sem surpresa, uma professora analisa a questão com mais atenção do que as ferramentas de IA

Professora corrige trabalho feito pelo ChatGPT e encontra erros crassos | Imagem gerada por inteligência artificial
Sem comentários Facebook Twitter Flipboard E-mail
pedro-mota

PH Mota

Redator
pedro-mota

PH Mota

Redator

Jornalista há 15 anos, teve uma infância analógica cada vez mais conquistada pelos charmes das novas tecnologias. Do videocassete ao streaming, do Windows 3.1 aos celulares cada vez menores.

774 publicaciones de PH Mota

Em 16 de junho, o exame Abitur de filosofia aconteceu na França. A segunda maior emissora de televisão pública do país, a France 3, aproveitou a oportunidade para um pequeno experimento.

Do que se trata exatamente:

  • O site da filial regional da France 3, Hauts-de-France, solicitou que o ChatGPT escrevesse uma dissertação do ensino médio em filosofia. Uma professora e as ferramentas de IA avaliaram o resultado.
  • A professora sabia que o texto havia sido escrito por uma IA. Em princípio, porém, ela deveria avaliá-lo da forma mais objetiva possível, como faz com todos os textos do exame.
  • Ela deu nota 8 de 20 pontos. Ferramentas de IA, por outro lado, avaliaram o texto de forma muito mais favorável em uma escala de até 20, na faixa de 15 a 19,5 pontos.

O fato de a professora chegar a um resultado menos positivo se deve, em parte, a um erro claro que o ChatGPT cometeu no início do seu trabalho.

Olhar mais atento ao tema

A tarefa: a pergunta exata que a France 3 deu ao ChatGPT foi formulada assim:

Sou um aluno do 12º ano do ensino médio geral que está fazendo o exame Abitur em filosofia. Ajude-me a escrever uma redação para que eu possa obter a melhor nota possível no Abitur.
Sua resposta deve adotar os códigos de uma redação para o ensino médio e prestar atenção à ordem das frases do aluno.
Sua resposta deve consistir em uma introdução, um desenvolvimento e uma conclusão. Você deve dedicar tempo para problematizar o tema, fazer referências filosóficas reais e bem fundamentadas e dar exemplos concretos de cada argumento. A ideia é criar um plano de três partes.

Posteriormente, o ChatGPT recebeu o seguinte tópico, que deveria ser discutido como parte do trabalho:

A verdade é sempre convincente?

Tanto a resposta completa do ChatGPT quanto a avaliação do texto feita pela professora, com as críticas mais importantes, estão listadas no artigo da France 3 Hauts-de-France, caso você queira vê-las em detalhes.

Erro claro

Já no primeiro parágrafo da introdução, o ChatGPT comete um erro grosseiro. Diz:

Isso levanta a questão: A verdade é suficiente para convencer?

À primeira vista, isso é apenas um pequeno desvio da questão principal: A verdade é sempre convincente? Mas, em filosofia, mesmo pequenas mudanças podem ter um grande efeito, como a professora também observa em sua correção do texto:

A IA comete o grave erro de substituir o tópico original por outro.

Mas o restante do texto também apresenta vários problemas aos olhos da professora, como a estruturação com base em afirmações pré-fabricadas, como "A verdade como correspondência com a realidade", que, obviamente, deveriam ser convincentes, ou transições de texto questionáveis.

É o que diz em certo ponto do texto do ChatGPT: Na realidade, porém, as coisas são mais complicadas, o que leva a professora a perguntar o seguinte em sua correção: Não estávamos considerando a realidade anteriormente?

No final, o texto permanece muito superficial, do seu ponto de vista, que ela resume da seguinte forma, ao comentar a conclusão do trabalho:

A conclusão tem a vantagem de retornar explicitamente ao tópico, mas continua a mostrar a incapacidade de refletir sobre o problema: O que é que a verdade, por mais convincente que seja, não consegue convencer por si só?

Avaliação da professora: no geral, isso resulta em 8 dos 20 pontos máximos possíveis.

Mas como exatamente as ferramentas de IA avaliam o desempenho do ChatGPT?

O que a própria IA diz sobre o trabalho?

Tanto a France 3 quanto nós submetemos o trabalho do ChatGPT a uma avaliação em uma escala de 1 a 20, levando em consideração o contexto de um exame de bacharelado. Os resultados são os seguintes:

  • ChatGPT (France 3): 19,5/20
  • ChatGPT: 17/20
  • Gemini: 15/20
  • Perplexity: 17/20
  • DeepSeek: 17/20
  • CoPilot: 17/20

Nenhuma das ferramentas menciona o erro grosseiro logo no início do trabalho do ChatGPT em sua avaliação. Ao mesmo tempo, todas elogiam a boa estrutura, bem como a argumentação convincente e coerente, demonstrada aqui com o exemplo da conclusão do DeepSeek:

O texto é bem estruturado e segue uma linha argumentativa clara, dividida em três partes: a persuasão natural da verdade, os limites dessa persuasão e a importância da mediação. A introdução apresenta o problema com precisão, e a conclusão resume os argumentos com segurança.

Importância muito limitada

Finalmente, deve-se enfatizar que, como mencionado no início, este é, em última análise, apenas um caso isolado e com pouquíssimos objetos de estudo.

  • Por exemplo, a resposta de uma IA a um determinado prompt varia, mesmo que uma solicitação idêntica à mesma IA seja usada várias vezes, e dependendo da ferramenta e do módulo específicos.
  • Ao mesmo tempo, o quão bem (ou mal) uma IA executa uma tarefa geralmente depende da formulação exata (e tão bem pensada quanto possível) de um prompt.
  • Por último, mas não menos importante, o escopo para avaliações divergentes é comparativamente grande, especialmente na área da filosofia, de modo que outro professor poderia avaliar o trabalho do ChatGPT de forma mais positiva.

No entanto, é interessante ver como as várias ferramentas de IA estão unidas na avaliação muito positiva da tese de Abitur do ChatGPT, enquanto a professora chega a uma conclusão muito mais negativa.

Não se pode descartar que um certo viés tenha desempenhado um papel nisso. Afinal, a professora sabia que o texto vinha de uma IA. No entanto, consideramos suas críticas ao trabalho bastante convincentes, mesmo que não devam ser consideradas uma verdade irrefutável.

Inicio