Nature：AI击败人类医学专家？科学家：仍需解决4大难题-科技

Nature：AI击败人类医学专家？科学家：仍需解决4大难题 2025-03-27 10:00:33 科技

在医学研究和临床治疗中，准确解读医学图像并生成有洞察力的报告对病人的护理是必不可少的，但却给人类临床专家带来了沉重的负担。

人工智能（AI），特别是多模态生成式医学图像解释（GenMI）领域的快速发展，为自动化这一复杂过程的部分工作创造了机会。尽管 GenMI 有望在生成跨学科报告方面(miàn)达(dá)到(dào)人类专家水平，但仍在准确性、透明度等方面面临障碍。

厘清这些障碍并提出针对性解决方案，对于帮助临床医生改善护理质量、加强医学教育、减少工作量、扩大专业准入并提供实时专业知识至关重要。

今天，来自哈佛医学院的研究团队在权威科学期刊 Nature 上发文，全面综述了开发从图像中生成医学报告的 AI 系统方面的进展和挑战。

论文链接：

https://www.nature.com/articles/s41586-024-07618-3

除了分析医疗报告生(shēng)成的新模型的优势和应用之外，他们倡导一种新的范式，以授权临床医生及其患者的方式部署 GenMI

在临床中发挥 GenMI 的优势

现有的大多数 AI 解决方案都侧重于自动完成医学影像中的单一任务，没有考虑到放射学和临床成像中涉及的更全面的综合分析。

因此，AI 有很大潜力在医学成像和报告方面实现更广泛的用途，例如快速撰写出涉及多科室的权威报告，摄取多种模式和临床数据，生成更加准确、流畅和可解释的报告等。

图｜自动生成医疗报告的应用

目前，医疗报告生成框架主要由视觉编码器和语言解码器组成。其中，编码器将图像中(zhōng)的(de)视(shì)觉(jué)信(xìn)息(xi)提(tí)取(qǔ)为(wèi)向(xiàng)量(liàng)表(biǎo)示(shì)，而(ér)解(jiě)码(mǎ)器(qì)接(jiē)收(shōu)一(yī)个(gè)向(xiàng)量(liàng)并(bìng)产(chǎn)生(shēng)特(tè)定(dìng)的(de)输(shū)出(chū)。

近(jìn)年(nián)来(lái)，科(kē)研(yán)人(rén)员(yuán)在(zài)编(biān)码(mǎ)器(qì)-解(jiě)码(mǎ)器(qì)方(fāng)法(fǎ)的(de)基(jī)础(chǔ)上(shàng)不断创新，从而更好地编码图像数据、考虑外部知识、筛选异常等。包括大语言模型（LLM）在内的大型预训练通用 AI 系统，通过推动开发新的 GenMI 解决方案，彻底改变了医学(xué)图(tú)像(xiàng)解(jiě)释(shì)。

这(zhè)些(xiē) GenMI 方(fāng)法(fǎ)可(kě)以(yǐ)产(chǎn)生(shēng)更(gèng)准(zhǔn)确(què)的(de)医(yī)疗(liáo)报(bào)告(gào)，以(yǐ)及(jí)使(shǐ)用(yòng)相(xiāng)同(tóng)的(de)基(jī)础(chǔ)模(mó)型(xíng)执(zhí)行(xíng)其(qí)他(tā)几(jǐ)个(gè)下(xià)游(yóu)任(rèn)务(wu)并(bìng)处(chù)理(lǐ)多(duō)模(mó)态(tài)数(shù)据(jù)。

这(zhè)些(xiē)算法大多建立在视觉语言模型（VLM）的基础上，VLM 将单个视觉和语言模型融合到一个统一的框架中，可以对图像和文本输入进行联合编码。

图｜GenMI 的能力

利用 GenMI 协助临床医生和患者，在临床环境中充分发挥它们的优势(shì)，可(kě)以(yǐ)通(tōng)过(guò)两(liǎng)个(gè)范(fàn)例(lì)来(lái)理(lǐ)解(jiě)。

第(dì)一(yī)个(gè)是(shì)部(bù)署(shǔ) AI 住院实习医师。AI 住院实习医师首先会专门起草临床上准确的报告，作为住院实习医师或医生撰写报告的起点。在开发过程中，可以在临床环境中对模型进行前瞻性测试。然后，AI 住院实习医师可以在主治医师的监督下进行微调或校准，并从所需的修正和补充中学(xué)习(xí)。

图(tú)片(piàn)

图(tú)｜部(bù)署(shǔ) AI 住(zhù)院(yuàn)实(shí)习(xí)医(yī)师(shī)

第(dì)二(èr)个(gè)是(shì)符(fú)合(hé)人(rén)类(lèi)偏(piān)好(hǎo)。基(jī)于(yú)人(rén)类(lèi)反(fǎn)馈(kuì)的(de)强(qiáng)化(huà)学(xué)习(xí)（RLHF）和(hé)直(zhí)接(jiē)偏(piān)好(hǎo)优(yōu)化(huà)（DPO）是(shì)应(yīng)用于此类任务的两种技术。

对话式医疗报告生成模型，使临床医生可以根据需要提供反馈和后续问题，还可以与临床医生合作，通过生成式 AI 改变输入图像的属性，观察模型预测中的相关差异，并将这些差异与临床医生识别出的突出(chū)特(tè)征进行比较，从而对 AI 成像工具进行审核，还可以对为患者生成的报告进行调整，使其更直白，包含更少的医学术语，更多围绕患者病情。

总的来说，临床医生可以通(tōng)过(guò) 3 种(zhǒng)途(tú)径与 AI 系统协作：

利用 AI 模型的诊断能力，获得诊断错误的反馈。模型可以结合多模态输出，其中的解释加上在原始图像上的边界框，可以突出图像中以前(qián)可(kě)能(néng)被(bèi)忽(hū)略的相关区域；

模型快速解(jiě)析(xī)图(tú)像(xiàng)和(hé)报(bào)告(gào)的(de)能(néng)力(lì)，有(yǒu)助(zhù)于(yú)临(lín)床(chuáng)医(yī)生(shēng)快(kuài)速搜索类似病例和图像；

模型可以协助临床医生决策，其提出的探究性问题可以让临床医生深入了解与特定病症相关的诊断模式。

仍需克服 4 大挑战

然而，研究团队表示，要想发挥 GenMI 等 AI 系统的优势，还需要解决基准、人类过度依赖、数据集和模型偏差以及新模型、新科室等挑战。

首先，是基准和评估指标。在安全实施医学报告生成模型，AI 住院实习医师将在住院治疗中发挥更重要的作用之前，必须开展评估下游临床效果的研究，明确衡量标准。

流行的 LLM 的性能会随着时间的推移而发生显著变化，这种差异可能会造成严重后果。例如，疾病预测模型可能会被操纵以输出特定的诊断和结果测量，从而导致处方过量、保险欺诈和伪造临床试验。

因此，在将 LLM 作为人工智能住院实习医师(shī)的一部分进行部署时，必须确保采取一致的安全措施和监管。

其次，是临床医生和患者的过度依赖。临床医生可能出于对(duì)错(cuò)误(wù)问(wèn)责(zé)的(de)模(mó)糊性、确认偏差和(hé)自(zì)动(dòng)化(huà)偏(piān)差(chà)，过(guò)于(yú)依(yī)赖(lài)机(jī)器(qì)自(zì)动(dòng)化(huà)指(zhǐ)导(dǎo)等(děng)各(gè)种(zhǒng)原(yuán)因(yīn)，不(bù)愿(yuàn)意(yì)更(gèng)改(gǎi) AI 生(shēng)成(chéng)报(bào)告(gào)中(zhōng)的(de)文字(zì)，忽(hū)略(è)模(mó)型(xíng)无(wú)法(fǎ)识别的罕见发现。

虽然 AI 住院(yuàn)实(shí)习(xí)医(yī)师(shī)可(kě)以(yǐ)让(ràng)患(huàn)者(zhě)直(zhí)接(jiē)与(yǔ)真(zhēn)正(zhèng)的(de)临(lín)床(chuáng)专(zhuān)家(jiā)进(jìn)行(xíng)交(jiāo)流(liú)，但(dàn)这(zhè)些(xiē)交(jiāo)流(liú)应(yīng)该(gāi)在(zài)可(kě)控(kòng)的(de)情(qíng)况(kuàng)下(xià)进(jìn)行(xíng)，这(zhè)样(yàng)患(huàn)者(zhě)就(jiù)不(bù)会(huì)依(yī)赖(lài) AI 住(zhù)院(yuàn)实(shí)习(xí)医(yī)师(shī)来指导他们的医疗护理。同时，临床医生应向患者传授正确的查询方法，并让他们了解 AI 工具，以便自己进行探索。在部署 AI 住院实习医师的整个过程中，必须承认 AI 系统的局限性，尤其是在直接护理等只有人类才能处理和提供的更广泛的语境、同理心和认知的领域。

然后，是有偏差的数据集和模型。深度学习模型，尤其是 LLM，很(hěn)容(róng)易(yì)受(shòu)到(dào)训(xun)练(liàn)数(shù)据(jù)固(gù)有(yǒu)偏(piān)差(chà)的(de)影(yǐng)响(xiǎng)。在(zài) AI 住(zhù)院(yuàn)实(shí)习(xí)医(yī)师(shī)的(de)范(fàn)例(lì)中(zhōng)，这(zhè)种(zhǒng)缺(quē)陷(xiàn)尤(yóu)其(qí)容(róng)易(yì)造(zào)成(chéng)问(wèn)题(tí)，因(yīn)为(wèi)模(mó)型(xíng)不仅会在生成的报告中，还会在医学教育和临床医生理解等方面延续这种偏差。

此外，人类的主观反馈是改进 AI 住院医师的关键因素，而这本身就可能造成有偏见的反馈循环。训练数据的质量、规模和平衡也是决定模型偏差的重要因素，因此亟需更广泛、更具代表性的数据集。

目前，大多数进展都是由 MIMIC-CXR 等数据集推动的，这些数据集仅限于单模态胸部 X 光扫描，其他数据集也不平衡，除了配对图像和相关报告普遍不足外，与正常扫描相比，异常扫描要少(shǎo)得(de)多(duō)，并(bìng)且(qiě)往(wǎng)往会捕捉到更常见的疾病，而罕见的疾病则很少出现。异常也通常只局限于图像的一小部分，因此模型很难对其进行筛选。

最后，是新的模式和新的科室。目前，将 GenMI 应用于三维成像（包括 MRI 和 CT 扫描）的工作十分有限。部分原因是这一领域缺乏大型标注数据集，只(zhǐ)有(yǒu)少数未发布、稀少或难(nán)以(yǐ)获(huò)取(qǔ)的(de)数(shù)据(jù)集。

除(chú)了(le)三(sān)维(wéi)放(fàng)射(shè)图(tú)像(xiàng)，GenMI 还(hái)以(yǐ)有(yǒu)限(xiàn)的(de)方(fāng)式(shì)应(yīng)用(yòng)于(yú)其(qí)他(tā)科(kē)室(shì)。眼(yǎn)科(kē)和(hé)皮(pí)肤(fū)科(kē)的(de)报(bào)告(gào)生(shēng)成(chéng)在(zài)一(yī)定(dìng)程(chéng)度(dù)上(shàng)取(qǔ)得(de)了(le)成(chéng)功(gōng)，在(zài)其(qí)考(kǎo)虑(lǜ)中(zhōng)纳(nà)入(rù)了(le)外(wài)部知识和疾病分类等标准技术。尽管纳入新科室和图像类型将扩展 AI 工具的能力，但获取大规模多模态数据集的成本非常高昂，资源充足的公司或有能力收集或授权使用这些专有数据集。

自动生成医疗报告在减轻临床负担、扩大专家级临床医疗服务覆盖面方面有广阔前景。GenMI 可以生成更高质量的报告，通过提供交互式临床专业知识授权临床医生和(hé)患(huàn)者(zhě)，并(bìng)通(tōng)过(guò)扩(kuò)展(zhǎn)教(jiào)育(yù)功(gōng)能(néng)改(gǎi)善(shàn)未(wèi)来(lái)的(de)临(lín)床(chuáng)护(hù)理(lǐ)。

研(yán)究(jiū)团(tuán)队(duì)表(biǎo)示(shì)，在(zài)不(bù)同(tóng)模(mó)式(shì)和(hé)科(kē)室(shì)的(de)临(lín)床(chuáng)环(huán)境(jìng)中(zhōng)，制(zhì)定(dìng)衡(héng)量(liàng)其(qí)效(xiào)果(guǒ)的(de)公(gōng)开(kāi)基(jī)准(zhǔn)、进(jìn)行(xíng)持(chí)续(xù)的(de)临(lín)床(chuáng)合(hé)作(zuò)和谨慎的模型验证至关重要，这有助于学术界更透明地衡量报告生成的进展，并为临床监管机构未来的工作提供指导，使其安全有效。

官方网站-首页

Nature：AI击败人类医学专家？科学家：仍需解决4大难题

产品&技术

解决方案&服务

投资者关系

新闻中心

关于我们