J Med Syst. 2025 Nov 29;49(1):172. doi: 10.1007/s10916-025-02316-7.
RESUMO
O estudo recente de Wu et al. (2025) comparando o DeepSeek-R1 e o ChatGPT-4o no Exame de Licenciamento Médico Nacional Chinês (CNMLE) fornece uma contribuição importante para a compreensão do desempenho de grandes modelos de linguagem em contextos médicos não ingleses. Embora seus resultados destaquem o potencial dos modelos de linguagem em avaliação do conhecimento médico, várias questões metodológicas merecem discussão adicional. Primeiramente, o uso exclusivo de itens em chinês, sem comparação bilíngue, pode favorecer o DeepSeek-R1, que apresenta forte desempenho em chinês, em relação ao ChatGPT-4o, cujo corpus de treinamento é predominantemente baseado em inglês. Em segundo lugar, a avaliação foi realizada antes do lançamento do GPT-5, o que pode levar a disparidades potenciais nas capacidades de raciocínio entre os modelos. Em terceiro lugar, a restrição a questões de múltipla escolha limita a avaliação à memorização de fatos, em vez de raciocínio de nível superior ou julgamento clínico. Elogiamos os autores por iniciarem esta valiosa análise cross-linguística e sugerimos que estudos futuros incorporem testes bilíngues, garantam a paridade funcional do modelo e incluam itens clínicos abertos para avaliar de forma mais abrangente a competência de raciocínio e interpretação de modelos de linguagem em contextos de educação médica do mundo real.
PMID: 41315131 | DOI: 10.1007/s10916-025-02316-7
Para ler a postagem completa, visite o original: Leia a Postagem Completa

Respostas