Colocaram os 21 chatbots de IA mais populares à prova para diagnóstico diferencial; falharam mais vezes do que em um estande de tiro de parque de diversões

  • A inteligência artificial está sendo cada vez mais utilizada na medicina, tanto para consultas domiciliares quanto em ambientes profissionais;

  • Com relação aos dados, os resultados são bons, mas para diagnósticos precoces, são péssimos

Eles colocaram os 21 chatbots de IA mais populares à prova para diagnóstico diferencial; falharam mais vezes do que num estande de tiro de parque de diversões
Sem comentários Facebook Twitter Flipboard E-mail
fabricio-mainenti

Fabrício Mainenti

Redator

Texto original de Alejandro Alcolea

Adoro a série "House". As histórias de fundo não me interessam nem um pouco, mas o processo de diagnóstico diferencial — apesar de todos os seus aspectos cinematográficos — me deixa louco. Essa capacidade de descartar doenças que poderiam explicar os mesmos sintomas para chegar ao diagnóstico mais provável me parece mágica.

Bem, colocaram os 21 chatbots de IA mais populares para trabalhar nesse diagnóstico diferencial, e o resultado é claro.

É mais impreciso do que um estande de tiro de parque de diversões.

Em resumo

O Mass General Brigham não é um hospital comum. É uma rede de médicos e hospitais americanos sem fins lucrativos, incluindo duas das instituições de ensino médico mais prestigiadas do país.

De janeiro a dezembro de 2025, um grupo de pesquisadores da instituição testou 21 chatbots de IA, incluindo Claude 4.5 Opus, DeepSeek, Gemini 3.0 Pro, GPT-5 e Grok 4, em dezenas de casos clínicos para determinar sua precisão no diagnóstico precoce.

As informações são extremamente básicas, mas são exatamente o que os profissionais têm à disposição para fazer diagnósticos diferenciais, e o objetivo final é avaliar as capacidades de raciocínio clínico desses modelos de linguagem de última geração para verificar se eles podem ser aliados na prática clínica.

A resposta é não. Embora os modelos otimizados para raciocínio tenham alcançado pontuações muito mais altas do que os mais simples, como o Gemini 1.5 Flash, a conclusão é que os modelos de linguagem ainda são limitados para essa tarefa.

O teste

Cada modelo recebeu 29 casos clínicos, representando mais de 16.200 respostas no total. O resultado é que essas versões mais recentes dos chatbots mais poderosos falharam em produzir um diagnóstico diferencial preciso em cerca de 80% dos casos quando dispunham apenas de informações básicas do paciente.

O problema é que idade, sexo e sintomas são, de fato, informações muito vagas, mas é com elas que os profissionais humanos que precisam fazer esse diagnóstico diferencial trabalham inicialmente. Aos poucos, conforme realizam outros testes e obtêm mais informações, eles refinam o resultado, mas é esse processo inicial de eliminação que muitas vezes faz a diferença.

"Queremos ajudar a separar a propaganda da realidade dessas ferramentas quando aplicadas à área da saúde".

Uma história completamente diferente

E, precisamente, à medida que os LLM recebiam mais dados, seu desempenho e resultados se tornavam mais robustos. Quando o chatbot possui mais informações, como dados de exame físico, resultados de exames laboratoriais e imagens diagnósticas, as coisas mudam, e a IA chega ao diagnóstico final em mais de 90% dos casos.

Mas, é claro, para chegar a esse ponto, eles precisam de quase todos os dados clínicos, o que evidencia ainda mais a lacuna e a incapacidade de realizar uma triagem inicial.

Não confie no Google ChatGPT

Os pesquisadores são claros ao afirmar que "esses modelos são muito bons em identificar um diagnóstico final quando os dados estão completos, mas têm dificuldades no início de um caso em aberto", o que os leva a enfatizar que não se deve confiar neles em casa.

A indústria de IA está impulsionando seu produto na área médica, mas o estudo aponta que "apesar das melhorias contínuas, os modelos de aprendizado de máquina comerciais não estão prontos para implementação clínica não supervisionada".

Eles afirmam que a intervenção humana e uma "supervisão muito rigorosa" são necessárias para ampliar o uso de um modelo de aprendizagem baseado em alucinações (LLM) na área da saúde. Eles se referem constantemente ao uso profissional, mas, cada vez mais, há casos de pessoas que antes se automedicavam usando o Google e agora dependem do ChatGPT.

O estudo enfatiza que "as alucinações persistem" nesses modelos de última geração, o que também levanta preocupações sobre a segurança e a integridade do paciente.

A situação em El Salvador

De qualquer forma, é evidente que, no fim das contas, a IA médica é apenas mais uma assistente, uma ferramenta, e o que foi testado aqui é um chatbot "comum" que sabe de tudo, mas não é especializado em nada.

Na medicina, assim como em outros setores, o uso da IA ​​pode auxiliar em tarefas como eliminar possibilidades ou organizar milhares de pontos de dados, mas um chatbot ainda não é um bom parceiro no diagnóstico diferencial porque, simplesmente, não se pode confiar nele.

Quem terá que depender da IA ​​para qualquer tipo de tratamento são os salvadorenhos. El Salvador tem sido um país pioneiro na adoção de novas tecnologias, e o presidente Nayib Bukele acaba de lançar mais um experimento: US$ 500 milhões (cerca de R$ 2,5 bilhões) para colocar a saúde nas mãos da Gemini. A população terá acesso ao aplicativo Dr.SV, que funcionará como um médico de família. 

Conforme detalhado no El País, essa IA reconhecerá sintomas e agendará consultas com médicos que farão o diagnóstico. A IA monitorará consultas e doenças crônicas, e o objetivo é que, eventualmente, ela possa gerenciar pacientes com câncer.

Segundo Bukele, eles estão criando o melhor sistema de saúde do mundo, o que é irônico considerando que demitiram mais de 7.700 profissionais da saúde em 2025. Pelo bem dos salvadorenhos, esperemos que esse novo experimento não termine como a Cidade do Bitcoin.

Inicio