Um experimento conduzido pela France 3, segunda maior emissora pública da França, colocou em lados opostos uma professora de filosofia e vários chatbots de inteligência artificial.
A premissa era simples: solicitar ao ChatGPT uma redação de filosofia para o ensino médio e, em seguida, comparar a avaliação humana com a avaliação automática de outras IAs.
O resultado escancarou um contraste intrigante entre critérios pedagógicos tradicionais e métricas algorítmicas.

Foto: iStock
1. Organização do teste
O portal France 3 Hauts-de-France enviou ao ChatGPT o seguinte prompt:
“Sou aluno do 12.º ano cursando o Abitur. Ajude‑me a escrever uma redação de filosofia com introdução, desenvolvimento e conclusão, seguindo o formato exigido pelo exame. Se entendeu, informarei o tema.”
O tema filosófico proposto foi: “A verdade é sempre convincente?”. Concluído o texto, duas etapas de avaliação se seguiram.
Correção de uma professora licenciada, que sabia estar diante de um texto gerado por IA, mas se comprometeu a aplicar os mesmos critérios usados em provas reais.
Correção de seis sistemas de IA (incluindo o próprio ChatGPT, Gemini, Perplexity, DeepSeek e Copilot), instruídos a dar notas de 1 a 20, tal como ocorre nos exames franceses.
2. A nota da professora — apenas 8/20
Para a avaliadora humana, o ensaio mereceu 8 pontos em 20 por três razões centrais:
- Desvio do enunciado: logo na primeira frase, o ChatGPT altera a pergunta original (“A verdade é sempre convincente?”) para “A verdade é suficiente para convencer?”, comprometendo a precisão conceitual.
- Argumentação superficial: apesar de estruturado, o texto se apoia em afirmações genéricas (“Na realidade, as coisas são mais complicadas”) sem problematização rigorosa.
- Falta de reflexão crítica: a conclusão retorna ao tema, mas não explica por que a verdade, ainda que convincente, pode falhar em persuadir.
3. A nota das IAs — até 19,5/20
Os chatbots avaliadores enxergaram outro cenário.
| Ferramenta de IA | Nota (1 a 20) |
|---|---|
| ChatGPT (France 3) | 19,5 |
| ChatGPT (GameStar) | 17 |
| Gemini | 15 |
| Perplexity | 17 |
| DeepSeek | 17 |
| Copilot |
17 |
Os algoritmos, por sua vez, elogiaram a estrutura e coerência do texto, resultando em altas notas. Nenhum deles reconheceu os erros apontados pela professora, refletindo o foco em fluidez e coesão formal.
Nenhum algoritmo mencionou o erro conceitual detectado pela professora. Pelo contrário, todos elogiaram a “estrutura clara” e a “coerência argumentativa”.
4. Por que tamanha divergência?
Veja a seguir alguns dos motivos que geraram a divergência durante a correção do texto:
Critérios distintos
- Professora: prioriza fidelidade ao enunciado, profundidade filosófica e originalidade.
- Algoritmos: tendem a valorizar fluidez textual, coesão formal e distribuição lógica de parágrafos.
Viés de conhecimento
- As IAs que corrigiram podem reconhecer padrões retóricos semelhantes à própria redação da IA, aumentando a pontuação — um possível efeito de espelho algorítmico.
Área de conhecimento
- Filosofia admite múltiplas abordagens; logo, a margem para notas divergentes é naturalmente maior do que em disciplinas factuais.
5. Limitações do experimento
Apesar de ter sido usado como referência de estudo, o experimento apresenta algumas inconsistências.
- Amostra única: um único texto não basta para generalizações estatísticas.
- Variação de respostas: o mesmo prompt gera saídas diferentes a cada interação com a IA.
- Conhecimento prévio: a professora sabia que o autor era um chatbot, o que pode influenciar, ainda que inconscientemente, a severidade da correção.
IA x Humanos
O caso evidencia uma dissonância entre a avaliação humana e a avaliação por inteligência artificial. Enquanto os algoritmos celebram a forma, os educadores alertam para deslizes de conteúdo e falta de profundidade crítica.
Para estudantes e instituições, a lição é clara: a qualidade textual algorítmica não dispensa a revisão humana — sobretudo em áreas que exigem rigor conceitual, como a filosofia.
