欢迎访问智慧医疗网 | 网站首页
 
当前位置:首页 > 资讯 > 观点

观点:利用AI大模型,破解医疗数据困境

发布时间:2024-03-28 来源: NEJM医学前沿 浏览量: 字号:【加大】【减小】 手机上观看

打开手机扫描二维码
即可在手机端查看

随着AI技术飞跃,医疗基础模型在2023年逐渐涌现。它们不仅能深刻理解临床数据,还能生成富有洞见的医疗知识。从影像诊断到药物研发,这些模型正逐步改写医疗服务的未来。然而,数据量有限、标注成本高、多模态数据融合困难等挑战仍旧存在。


如何在确保隐私的前提下,高效利用有限的医疗数据?《NEJM医学前沿》特邀上海交通大学、上海人工智能实验室张少霆团队解析基础模型(foundation model)在破解医疗数据困境方面的研究进展。

医疗数据困境新解:基础模型


王德泉,张昀焜,张少霆*

上海交通大学,上海人工智能实验室

*通讯作者


医疗诊断对减少疾病发生、降低死亡率、提高民众健康水平具有重要意义。高质量的医疗数据在其中扮演了不可或缺的角色,包括影像、基因组学、实验室测试等临床数据。无论是对医疗专家,还是对医疗AI而言,临床数据都有助于充分了解患者体征情况、提出合理决策。然而多年来,在医疗信息化领域,临床数据的收集、处理和使用却面临着种种挑战,包括数据量有限[1]、数据标注成本高[2]、数据模态多[3]、患者隐私保护难[4] 等。这些问题犹如医疗AI发展路上的绊脚石,阻碍了医疗AI的进步。

随着通用领域AI的快速发展,我们看到了新的曙光。近年来,基础模型(foundation model)在视觉识别、语言理解、知识发现等传统AI领域取得了突破性的进展。这些基础模型在医疗AI领域也开始崭露头角:强大的逻辑推理、语义理解、内容生成能力,已经在医疗对话[5]、患者健康分析[6]、治疗规划[7]等方面展现出巨大的潜力。不仅如此,人们也在基于通用基础模型和医疗数据,构建医疗领域的基础模型,以应对更需要医疗专业知识的场景。仅在2023年,医疗领域就涌现了一大批强大的基础模型,例如病理图像模型PathoDuet [8]、眼底图像模型RETFound [9]、内窥镜检查视频分析模型Endo-FM [10]、医学综合问答模型Med-Flamingo [11]和Med-PaLM 2 [12]等。这些模型逐步在临床诊断、医疗对话、药物研发等方方面面投入了实际应用,为医疗工作者和患者们带来了福祉。

然而,由于数据是基础模型的根基,医疗领域长久存在的数据问题必然会对医疗基础模型的发展产生负面影响。因此,在强大的AI系统真正大规模应用之前,这些数据问题亟待解决。

通用领域的基础模型为解决医疗数据困境提供了新的可能。OpenAI团队通过大量涵盖各种医疗场景的实验,验证了GPT-4模型在医学文本理解和生成方面的卓越能力[7]。来自斯坦福大学的一项工作利用stable diffusion模型根据文字生成X光图片,证明了用基础模型生成高质量医疗数据,以解决数据稀缺问题的可行性[13]。这些成果无疑为医疗AI的发展注入了新的活力。

微信图片_20240328155318.png

图1. 患者、医疗数据、基础模型三者的关系。三者共同构建以数据为中心的医疗AI研发路线。

在基础模型的新时代,解决医疗数据问题成为了医疗AI研究的重中之重。通用领域的研究已经为医疗领域打好了基础,然而目前通用领域的基础模型在医疗领域究竟能有多大程度的应用,医疗领域基础模型的发展现状和前景又如何?我们用本文简介基础模型的工作原理,列举基础模型为医疗领域数据问题带来的新解决方案,并讨论其可能涉及的隐私保护和道德风险。


数据量


在医疗场景中,既有常见病,又有许多影响人群比例很低的罕见病、某些遗传疾病等。前者有着大量数据的支持,能够作为医疗AI训练的燃料。而后者的数据量则极为有限,数据提供的有限信息无法满足在特定医疗任务上训练一个鲁棒模型所需的信息量,这可能导致模型训练不足,产生不准确、不可靠的模型结果。同时,由于患者隐私保护等规范,即使是常见病,公开的医疗数据记录也很有限。此外,包括数据收集、清理和标注等多个环节的现实世界数据集构建通常较为昂贵。

通用领域的基础模型有望缓解医疗应用中数据量不足的问题。一方面,基础模型能够辅助医疗数据增强。许多工作利用基础模型生成训练数据,相较于传统数据增强方法,这种新型训练方法引入了模型中包含的大量信息,提升了信息熵。大语言模型和扩散模型这类生成式大模型在医疗数据增强上效果良好。例如哈佛大学的研究者利用DALL-E生成皮肤病图片来训练分类模型[14],浙江大学的研究者开发的PathAsst基础模型能够生成病理学子领域的指令样本来训练其他模型[15]等。

另一方面,基础模型能够更为高效地利用现有数据。基础模型可以成为连接有限的下游数据与大量上游数据的桥梁。例如,上海交通大学的研究者利用医学语言基础模型所包含的对医学图像和概念的理解,引导通过自然图像训练的视觉模型迁移至病理图像,从而完成病理图像少样本分类任务[16]。又如,哈佛大学的研究者们实验验证了医疗领域的基础语言模型能在罕见病的诊断中发挥作用[17]。在2023年NeurIPS会议上,OpenMEDLab发起了MedFMC基础模型医学图像分类挑战,吸引世界各地600多个团队参加,推动了对通用基础模型在医学图像分类任务上高效应用的研究[18]。

最后,在互联网信息愈发丰富的今天,通过互联网获取基础模型的训练数据也成为了解决数据量问题有效且常用的方法之一。我们需要从高质量的医学数据平台,例如PubMed,爬取数据。同时,可以用合适的采样、过滤、清洗方法,包括使用基础模型或训练一个专用的小模型来判断数据是否为我们所需[19,20]。


数据标注


除了解决数据量的问题,对已经收集到的数据进行标注也是一个关键步骤。在利用基础模型诊断疾病、制定治疗计划,并最终为更明智、高效的医疗系统铺平道路的持续努力中,数据标注发挥着关键作用。通过分配信息丰富的元数据或类别标签,数据标注为原始数据集添加了人类专业知识和背景理解,为医疗教育、诊断和人工智能应用提供了有价值的见解。然而,数据标注仍然面临诸如专业标注人员短缺、标注过程复杂等挑战。幸运的是,基础模型的可扩展性使我们能够缓解大规模医疗数据标注的成本问题。

文本标注的过程需要从各类医学报告中提取关键信息,有助于医生快速了解患者的状况,做出更为准确的诊断。同时,这也有利于建立完整准确的患者档案,为长期跟踪、理解疾病发展规律等提供便利。人类专家对医疗信息的提取有较高的准确率,但比较耗时耗力。而如今的基础模型,尤其是大语言模型,已经可以达到和人类专家近似水平的信息提取效果,为医疗工作者节省成本。例如,在医疗数据上微调的大语言模型Med-PaLM 2 [12]能够进行高质量的医学问答,其回答堪比甚至超过专业临床医生,可以用于医疗文本数据的标注。

另一方面,医学影像标注对于病理学、放射学图像等医疗数据的理解和分析也十分重要。其中,对图像分割掩码的标注对医生诊断病情、定位病灶起着关键作用。2023年4月,通用领域视觉分割基础模型SAM问世,此后许多工作尝试使用SAM对医学图像进行分割,并实验验证了SAM能够在医学图像上有较好的分割表现,因而能够作为图像数据标注的工具[21]。然而,直接使用SAM也可能导致结果缺乏足够的一致性和可靠性,需将其在医学图像上进行微调再进行标注更为合理[22]。OpenMEDLab和上海交通大学的研究者们基于SAM,开发了名为MedLSAM的3D CT图像定位+分割基础模型,能够保证不受数据集大小影响的、常数时间的3D医学图像标注,大大降低了标注成本[23]。


多模态数据融合


医疗数据的多模态特性,如影像、诊断报告、生物信号等,为医疗工作者提供了多角度的患者信息。如何融合多模态数据成为了提升诊断准确性和治疗效果的关键。如今,基础模型为医疗数据模态融合提供了新视角。在模型预训练阶段,可以通过大规模配对的多模态数据进行多模态联合预训练,使模型能够接受并理解多模态输入;在下游应用阶段,可以通过大语言模型等基础模型的transformer结构,在隐空间进行模态融合。

多模态联合预训练利用配对的数据样本(如图片和对应的文本)使得各模态数据在表征空间具有相似的特征,实现模态融合。这类方法在医疗领域也很常用,尤其是在放射学、病理学等子领域,数据通常以图像和文字报告配对形式存在。例如,来自微软的Benedikt Boecking等人在大量胸片和其对应的放射报告上训练BioViL模型,以获得相匹配的图像和语言特征[24]。又如,斯坦福大学的研究者们大量收集了Twitter上包含特定关键词的内容和对应的病理图像,构建了病理图像文本对的公开数据集OpenPath,并在此数据集上训练了PLIP模型,在下游的图像分类等零样本任务上获得很好的结果[25]。

另一方面,大语言模型凭借其注意力机制具有强大的语义理解能力,而这种能力并不局限于语言,也可以迁移到多模态场景。来自不同模态的数据可以作为大语言模型的提示词输入进行聚合,组合而成的多模态输入通过模型中的transformer层进行融合,通过注意力机制彼此交换信息,达成模态融合的结果。由于如GPT-4等强大的语言模型本身在医学领域已被验证有足够强的能力[7],这种模态融合方法在医疗领域同样适用。例如,斯坦福大学的研究人员将图片和文字输入拼接成一个序列,经过大语言模型得到输出,并对融合模块进行训练,开发了Med-Flamingo模型。Med-Flamingo在涉及医疗图片的问答任务上展现出了很强的少样本学习能力[11]。


数据隐私


医疗数据的隐私性保护一直是一个重要议题。为此,各国纷纷出台法律法规,严格规范私有数据的共享和使用[26]。而随着AI技术的发展,尤其是基础模型的兴起,我们看到了解决这一难题的新希望。基础模型依靠其强大的数据生成能力,可以生成足以用于模型训练但不包含任何患者隐私信息的数据。有研究基于扩散模型训练了能够生成高分辨率3D医学图像的模型,其生成的图像在去除了关键隐私信息的同时,保留了足以用于模型训练的特征[27]

然而,基础模型规模大的特性使得其具有对预训练数据的记忆能力,并且在输出时倾向于模仿训练所见数据,因此使用基础模型也可能产生隐私保护问题[28,29]。这就要求我们在利用基础模型的同时,也要做好其预训练数据的去隐私化处理,确保患者信息的安全,要真正安全地将其应用在医疗领域数据生成上,还需要进一步研究。目前已经有许多工作讨论基础模型的隐私问题。


模型评估


在训练阶段后,准确地度量模型的性能和安全性等指标是将模型真正投入使用的前提。由于基础模型的规模和复杂性,对其进行评估是一项很大的挑战。下面我们介绍三类基础模型的评估策略,这些策略各有优劣。

固定的数据集和指标是常用的评估方式之一。目前在医疗领域,研究人员已经构建了大量用于评估的数据集和指标,包括MIMIC-III [30]、BLURB [31]等。其好处是评估结果的可重复性,以及模型之间比较的公平性。然而,在真实世界使用基础模型时往往会遇到许多需要灵活应变的情况,而静态数据集不能很好体现基础模型在这些罕见的、多变的、与人类交互等情况下的真实表现。同时,在评估基础模型与人类价值观一致性方面,目前相关的数据集和指标仍然较少。并且,在模型规模越来越大的今天,指标的更新速度难以跟上基础模型的发展。

在研究中同样常用于基础模型评估的,还有人类专家的评估,例如斯坦福大学的研究者们邀请放射学家对ChatGPT翻译放射报告的正确性进行评估[13]。人类专家的优势是对模型的评估更为准确,具备灵活性,以及和人类价值观吻合。然而,邀请人类专家的成本较为高昂,且人类专家的评估可能由于其背景等因素的不同产生过多主观性[32]。

如果有一个足够强大且与人类价值观对齐的基础模型,它能否成为评估其他模型的标杆?这种方法通常不需要一个固定的数据集以及标注,仅需要标杆模型的推理,是一种比较高效的方法。例如,来自中国台湾的研究团队验证了ChatGPT在故事生成和对抗攻击两个自然语言任务上能达到人类专家的评估水平,并且在不同提示词下能产生稳定的结果[33]。尽管在医疗领域要找到这样一个标杆模型通常并不容易——自然领域的基础模型在医疗领域仍然会遇到领域偏移较大的问题,且很可能缺乏足够的领域专业知识评估其他模型——利用基础模型的自动化评估仍是一个非常值得研究的方向。结合人类专家与自动评估来获得更高质量的评估结果,取长补短,可能是一个很有潜力的方法。


基础模型的缺陷


在解决医疗数据有限方面,基础模型已经展现出了巨大的潜力。但正如任何技术一样,它们也并非完美无缺。基础模型还存在着一些亟待解决的缺陷,包括幻觉、偏见、缺乏规范等。

基础模型可能生成看似合理但实际不准确的内容,这就是基础模型的幻觉。这种现象可能由多种数据因素引起,包括训练数据的质量、规模和内在偏见。在与医疗相关的基础模型应用中,错误信息可能对所有医疗利益相关者造成严重后果,因而解决幻觉问题至关重要。在幻觉影响下,基础模型可能生成影响医疗诊断、决策和患者护理的内容。

为了解决这一问题,关键的一步是正确识别和评估幻觉的严重程度。检测幻觉的评估指标和任务应考虑事实准确性、连贯性和一致性等因素。例如,Med-HALT(医学领域幻觉测试)的基准能够用于评估大语言模型中的幻觉[34]。Med-HALT包括基于推理和记忆的幻觉测试,可用于评估大语言模型在医学背景下的问题解决和信息检索能力。另一个方向是AI与人类的合作。引入人类的知识和判断可以帮助检测模型产生的幻觉。众包平台也可以用于收集人类对模型生成内容的评估,以开发可靠的医疗基础模型。最后,应开发与医疗基础模型对抗性测试,以识别可能触发幻觉的输入提示词等,从而提高模型生成内容的可信度[35]。

基础模型也可能带有对某些群体、地域、性别等的偏见。这种偏见可能源于训练数据中的文化、语言、人口统计和政治等因素。例如,来自美国的AnsibleHealth机构和来自中国的研究团队分别评估了ChatGPT在中美医学执业许可考试上的表现,其结果表明ChatGPT在英文考试中准确率更高,其原因在于大语言模型在训练过程中存在语言偏见[36,37]。目前基础模型的训练数据通常从互联网收集,很可能没有受到人类专家的监督,导致在医疗领域中人类与模型结果之间的潜在认知差距。

为了减轻这种偏见,需要在数据集构建和模型评估等过程中引入人类专家的指导,以开发可信的基础模型[38]。同时,医疗利益相关者和基础模型的开发者应该认识到,目前基础模型的架构和训练模式缺乏对有害信息和对抗性操纵的防御和检测能力。为了改善这一点,我们可以考虑在医疗基础模型的开发中引入对抗性攻击训练,以增强有害信息的防御和检测能力[38]。

随着医疗AI应用的日益增多,基础模型的规范化也成为一个重要议题。各国政府(如美国食品药品管理局)开始将执行医疗功能的程序视为医疗设备进行监管。未来,基础模型将被视为新型的医疗设备,接受更为严格的监管,包括明确基础模型的实际应用目的和范围,在权威数据上进行性能基准测试,制定用户使用指南,并通过临床试验验证有效性等。在模型部署后,也需持续监管以适应不断变化的任务和环境[39]。


总结与展望


基础模型的发展和应用在医疗领域掀起了一阵浪潮,为高效诊疗等提供了新机会。在这一浪潮中,大规模医疗数据的收集、处理、分析等成为了至关重要的研究课题。为了解决医疗数据中长久存在的问题,包括数据量的缺乏、数据标注的高成本、多模态数据融合、数据隐私问题等,研究者们探索了基础模型带来的新解决方案。同时,在医疗领域应用基础模型的安全问题同样不容忽视。从基础模型的训练数据所导致的幻觉、偏见,到基础模型的监督管理,都是我们必须重视并解决的问题。

我们相信,基础模型在医疗领域仍有巨大的发展空间。未来,在研究人员和医疗工作者的共同努力下,基础模型的力量在医疗场景下将得到更加安全有效的发挥,为人们的健康生活带来更多福祉。


智慧医疗网 © 2022 版权所有   ICP备案号:沪ICP备17004559号-5