Em 16 de junho, o exame Abitur de filosofia aconteceu na França. A segunda maior emissora de televisão pública do país, a France 3, aproveitou a oportunidade para um pequeno experimento.
Do que se trata exatamente:
- O site da filial regional da France 3, Hauts-de-France, solicitou que o ChatGPT escrevesse uma dissertação do ensino médio em filosofia. Uma professora e as ferramentas de IA avaliaram o resultado.
- A professora sabia que o texto havia sido escrito por uma IA. Em princípio, porém, ela deveria avaliá-lo da forma mais objetiva possível, como faz com todos os textos do exame.
- Ela deu nota 8 de 20 pontos. Ferramentas de IA, por outro lado, avaliaram o texto de forma muito mais favorável em uma escala de até 20, na faixa de 15 a 19,5 pontos.
O fato de a professora chegar a um resultado menos positivo se deve, em parte, a um erro claro que o ChatGPT cometeu no início do seu trabalho.
Olhar mais atento ao tema
A tarefa: a pergunta exata que a France 3 deu ao ChatGPT foi formulada assim:
Sou um aluno do 12º ano do ensino médio geral que está fazendo o exame Abitur em filosofia. Ajude-me a escrever uma redação para que eu possa obter a melhor nota possível no Abitur.
Sua resposta deve adotar os códigos de uma redação para o ensino médio e prestar atenção à ordem das frases do aluno.
Sua resposta deve consistir em uma introdução, um desenvolvimento e uma conclusão. Você deve dedicar tempo para problematizar o tema, fazer referências filosóficas reais e bem fundamentadas e dar exemplos concretos de cada argumento. A ideia é criar um plano de três partes.
Posteriormente, o ChatGPT recebeu o seguinte tópico, que deveria ser discutido como parte do trabalho:
A verdade é sempre convincente?
Tanto a resposta completa do ChatGPT quanto a avaliação do texto feita pela professora, com as críticas mais importantes, estão listadas no artigo da France 3 Hauts-de-France, caso você queira vê-las em detalhes.
Erro claro
Já no primeiro parágrafo da introdução, o ChatGPT comete um erro grosseiro. Diz:
Isso levanta a questão: A verdade é suficiente para convencer?
À primeira vista, isso é apenas um pequeno desvio da questão principal: A verdade é sempre convincente? Mas, em filosofia, mesmo pequenas mudanças podem ter um grande efeito, como a professora também observa em sua correção do texto:
A IA comete o grave erro de substituir o tópico original por outro.
Mas o restante do texto também apresenta vários problemas aos olhos da professora, como a estruturação com base em afirmações pré-fabricadas, como "A verdade como correspondência com a realidade", que, obviamente, deveriam ser convincentes, ou transições de texto questionáveis.
É o que diz em certo ponto do texto do ChatGPT: Na realidade, porém, as coisas são mais complicadas, o que leva a professora a perguntar o seguinte em sua correção: Não estávamos considerando a realidade anteriormente?
No final, o texto permanece muito superficial, do seu ponto de vista, que ela resume da seguinte forma, ao comentar a conclusão do trabalho:
A conclusão tem a vantagem de retornar explicitamente ao tópico, mas continua a mostrar a incapacidade de refletir sobre o problema: O que é que a verdade, por mais convincente que seja, não consegue convencer por si só?
Avaliação da professora: no geral, isso resulta em 8 dos 20 pontos máximos possíveis.
Mas como exatamente as ferramentas de IA avaliam o desempenho do ChatGPT?
O que a própria IA diz sobre o trabalho?
Tanto a France 3 quanto nós submetemos o trabalho do ChatGPT a uma avaliação em uma escala de 1 a 20, levando em consideração o contexto de um exame de bacharelado. Os resultados são os seguintes:
- ChatGPT (France 3): 19,5/20
- ChatGPT: 17/20
- Gemini: 15/20
- Perplexity: 17/20
- DeepSeek: 17/20
- CoPilot: 17/20
Nenhuma das ferramentas menciona o erro grosseiro logo no início do trabalho do ChatGPT em sua avaliação. Ao mesmo tempo, todas elogiam a boa estrutura, bem como a argumentação convincente e coerente, demonstrada aqui com o exemplo da conclusão do DeepSeek:
O texto é bem estruturado e segue uma linha argumentativa clara, dividida em três partes: a persuasão natural da verdade, os limites dessa persuasão e a importância da mediação. A introdução apresenta o problema com precisão, e a conclusão resume os argumentos com segurança.
Importância muito limitada
Finalmente, deve-se enfatizar que, como mencionado no início, este é, em última análise, apenas um caso isolado e com pouquíssimos objetos de estudo.
- Por exemplo, a resposta de uma IA a um determinado prompt varia, mesmo que uma solicitação idêntica à mesma IA seja usada várias vezes, e dependendo da ferramenta e do módulo específicos.
- Ao mesmo tempo, o quão bem (ou mal) uma IA executa uma tarefa geralmente depende da formulação exata (e tão bem pensada quanto possível) de um prompt.
- Por último, mas não menos importante, o escopo para avaliações divergentes é comparativamente grande, especialmente na área da filosofia, de modo que outro professor poderia avaliar o trabalho do ChatGPT de forma mais positiva.
No entanto, é interessante ver como as várias ferramentas de IA estão unidas na avaliação muito positiva da tese de Abitur do ChatGPT, enquanto a professora chega a uma conclusão muito mais negativa.
Não se pode descartar que um certo viés tenha desempenhado um papel nisso. Afinal, a professora sabia que o texto vinha de uma IA. No entanto, consideramos suas críticas ao trabalho bastante convincentes, mesmo que não devam ser consideradas uma verdade irrefutável.
Ver 0 Comentários