Chatbot de IA supera médicos em acerto de diagnósticos, revela um dos maiores estudos na área, feito por Harvard

O resultado rompe um paradigma de pesquisa na área, porque até agora as ferramentas de IA que tiveram desempenho sobre-humano na medicina eram sistemas produzidos para tarefas muito específicas

Por Rafael Garcia – O Globo – 30/04/2026

Um robô conseguiu superar médicos humanos num dos testes mais rigorosos feitos até agora para avaliar o desempenho de chatbots de inteligência artificial em diagnóstico e acompanhamento médico.

Numa série de experimentos coordenados por cientistas da Escola Médica de Harvard, em Boston, o modelo o1, da OpenAI, se mostrou tão bom ou melhor que profissionais do Hospital de Geral de Massachusetts e do Beth Israel Medical Center, dois dos melhores centros clínicos dos Estados Unidos.

Dr. ChatGPT: Pacientes raramente extraem informação médica útil da IA, mostram estudos

A tarefa à qual o robô conversador foi submetido (junto de outros sistemas de IA) foi a de fazer diagnósticos de pacientes com base naquilo que estava escrito em seus prontuários médicos, em estágios iniciais do atendimento. As respostas eram comparadas então aos diagnósticos finais, com os cenários já concluídos.

Alguns dos experimentos foram feitos usando casos de registros antigos. Alguns eram cenários fictícios. Outros eram situaçãoes obtidas em tempo real por pacientes que chegavam aos dois hospitais em Boston. Mais de 250 casos foram usados ao todo, e o robô foi comparado ao trabalho de 500 médicos de carne e osso.

Saúde mental digital: Terapia por IA tem riscos, mas pode ser benéfica se usada sob controle, dizem psicólogos

Entre os resultados nos quais o o1 superou com boa margem o desempenho humano estavam os casos tirados de uma série de artigos que a revista New England Journal of Medicine publica semanalmente: quebra-cabeças no melhor estilo da série de TV “House”, em que um médico com inclinação para detetive desvenda mistérios clínicos.

A equipe de 25 cientistas que projetou e conduziu o testes com a IA descreveu o trabalho em detalhes num estudo na revista Science, liderado por Adam Rodman, do centro Beth Israel, e Arjun Manrai, de Harvard.

— O resumo da história é que um modelo de IA superou a altíssima linha de base dos nossos médicos — disse Manrai em entrevista coletiva. — Esse grupo inclui médicos em atividade, que são profissionais certificados por associações, atuando em cenários com casos bem caóticos.

Efeito colateral positivo

O resultado, segundo os cientistas, rompe um paradigma de pesquisa na área, porque até agora as ferramentas de IA que tiveram desempenho sobre-humano na medicina eram sistemas produzidos para tarefas muito específicas. Notadamente, softwares de IA para análise de imagens de patologia clínica já conseguiam resultados muito bons.

O o1, diferentemente, é apenas a geração mais recente de um ‘grande modelo de linguagem’ (LLM), ou seja, uma evolução da tecnologia mais geral como a que se vê no ChatGPT, Gemini e congêneres.

— Esses modelos não são treinados para raciocinar clinicamente. Eles foram treinados sobre a probabilidade de um conjunto de palavras aparecer após outro conjunto de palavras, de forma que possa ser genericamente útil — afirmou Manrai. — Poré, como se fosse um efeito colateral, eles também são capazes de resolver casos complexos publicados no New England Journal e situações no pronto socorro.

No estudo, o chatbot teve sua maior diferença de desempenho justamente na triagem inicial feita nas salas de emergência, atingindo pontuação de 67,1% contra 55,3% dos humanos. Nesse estágio, a taxa de acerto de ambos é menor porque não há resultados de exames ainda para serem usados.

Mesmo ao fim da passagem pela emergência, no momento de dispensa ou internação, porém, a IA manteve alguma margem de vantagem sobre os humanos aos quais estava sendo comparada: 81,6% contra 78,9% de desempenho.

Um dos casos em que o chatbot superou humanos envolvia um paciente transplantado que apresentava dor escrotal e quadro genérico de infecção. Rodman conta que enquanto os médicos humanos se concentravam na relação dos sintomas com os problemas respiratórios do homem, o modelo de IA suspeitou desde o início que se tratava de fasciite necrosante, um problema que requer cirurgia de emergência, antecipando o que os médicos humanos só iriam concluir 12 a 24 horas depois.

Outro caso em que as máquinas superaram humanos foi o de uma paciente com uma embolia pulmonar, à qual médicos atribuíram inicialmente à uma falha da medicação anticoagulante. Ela possuía, porém, um histórico passado de lupus, e a IA foi a primeira a matar a charada, atribuindo o problema a uma inflamação latente causada por essa doença autoimune.

Entusiasmo com cautela

Apesar dos resultados surpreendentes, os médicos apresentaram o estudo acompanhado de um pedido de cautela, alegando que ele não significa que a IA possa substituir médicos. Ele também certamente não significa que pessoas comuns consigam extrair do ChatGPT os mesmos resultados que os médicos de Boston conseguiram, pois é preciso alimentar o modelo com informações técnicas como as que estão nos prontuários.

Além disso profissionais de saúde humanos são capazes de fazer observações visuais, auditivas e sensoriais que estão além do escopo de capacidades de um robô criado para produzir texto.

— Eu fico um pouco apreensivo ao pensar em como alguns desses resultados vão acabar sendo usados, porque é importante saber o que eles não significam — diz Rodman. — Existe um motivo pelo qual gostamos de figuras como o Dr. House, e do próprio Sherlock Holmes, que foi inspirado em um médico da vida real, Joseph Bell. Eles eram ícones do diagnóstico. Mas o diagnóstico é apenas uma entre muitas partes da medicina.

Os cientistas defendem, de todo modo, que a incorporação de chatbots na prática médica precisa ser estudada a sério, até porque médicos já estão experimentando fazer isso por conta própria.

— As descobertas do nosso grupo não significam que a IA vai necessariamente melhorar o cuidado médico — diz Manrai. — Ainda se sabe pouco sobre onde e quando ela pode ser aplicada, e nós precisamos de testes prospectivos rigorosos para avaliar o impacto da IA na prática clínica.

Chatbot de IA supera médicos em acerto de diagnósticos, revela um dos maiores estudos na área, feito por Harvard

Se você tiver interesse e ainda não estiver inscrito para receber diariamente as postagens de O Novo Normal, basta clicar no link: https://chat.whatsapp.com/GeLUPi5zQ2582nGKD6JFey para WhatsApp e https://t.me/joinchat/SS-ZohzFUUv10nopMVTs-w para Telegram. Este é um grupo restrito para postagens diárias de Evandro Milet. Além dos artigos neste blog, outros artigos de Evandro Milet com outras temáticas, publicados nos fins de semana no Site simnotícias, encontram-se em http://evandromilet.com.br/

Acesse o link abaixo para entrar no meu grupo do WhatsApp onde publico meus artigos semanais e entrevistas que faço no rádio e TV(em renegociação), sempre na temática inovação e negócios: https://chat.whatsapp.com/HqlJjC80rJ0Bu9lmsZgw5B

Sugestão: Se estiver procurando alguém para implementar uma solução de IA com agentes e SLM veja a Aumo | Transformamos dados em soluções de IA avançadas

Se tiver interesse em gêmeos digitais para a indústria procure a Neo Vision – Captura Digital da Realidade

O resultado rompe um paradigma de pesquisa na área, porque até agora as ferramentas de IA que tiveram desempenho sobre-humano na medicina eram sistemas produzidos para tarefas muito específicas

Efeito colateral positivo

Entusiasmo com cautela

Compartilhe isso:

Relacionado

Deixe um comentário Cancelar resposta