具有变革性潜力的多模态模型在医疗领域的快速发展和广泛应用,标志着医疗人工智能进入了一个全新的大模型时代,通过整合和分析大量的文本、图像和语音数据等,在预防、诊断和治疗各个环节推动了医疗服务的个性化和精准化。然而,随着大型多模态模型在医疗健康领域的快速发展和应用,医疗领域的监管机构和传统规则体系也面临着全新挑战。其中,虚假信息、“情感操纵”、算法偏见和侵权责任的模糊都是亟待解决的核心问题。为应对这些挑战,一是落实人工智能全生命周期安全措施,打造可信的医疗大模型应用;二是践行伦理嵌入设计的AI伦理治理理念,实现医疗大模型价值对齐;三是明确医疗大模型的产品责任规则的适用,确保对受害人的有效救济。共同推进医疗人工智能安全和有效应用,为构建更加健康、公正和智能的医疗生态系统作出贡献。
多模态是目前人工智能的进步方向,多模态模型的相关研究和应用继续快速发展。除了传统的图文模型外,多模态模型研究还拓展到了音频、视频等其他模态中,开发出能同时处理图像、视频和音频信号的Audio-Visual BERT模型,为LMM在更广泛的应用场景中发挥作用奠定了技术基础,在丰富人与大模型的互动模式方面起着关键作用。如何将大型多模态模型应用到医疗领域是当前人工智能研究和应用的热点。现有研究中,常利用LMM综合多种数据类型来提高诊断的准确性、优化治疗方法、提升患者护理质量以及加速医学研究。据预测,多模态大模型将广泛应用于医疗保健、科学研究、公共卫生和药物开发等领域。
尽管大型多模态模型在医疗领域的应用前景非常广阔,但同时也面临着数据隐私、算法透明度、模型解释性等伦理和技术挑战。为应对这一挑战,世界卫生组织(WHO)发布Ethics And Governance Of Artificial Intelligence For Health. Guidance On Large Multi-Modal Models(以下简称《指南》)旨在针对LMM应用中的问题作出回应,为政府、科技公司和医疗机构提供具体指导建议。未来,随着技术的进步和相关法规、标准的完善,预计多模态模型将在医疗领域发挥更大的作用,为患者提供更优质的医疗服务,并加速医学科学的进步。
大型多模态模型在医疗领域的 应用现状与发展方向 一大应用方向便是诊断和临床护理,旨在从复杂病例管理和常规诊断中减轻医疗服务提供者的工作量。几家大型科技企业正在将其通用LMM调整为可辅助临床诊断和护理的LMM。其中,来自Google Research的多模态模型Med-PaLM-2便是专为医学领域设计,也是第一个在美国医学执照考试(USMLE)风格问题中超过及格分数(>60%)的人工智能系统。在一次医疗问题研究中,Med-PaLM-2需要理解症状,并检查患者的检查结果,对可能的诊断结果进行复杂的推理,最终选出最合适的疾病、检查或治疗的答案。与临床医生对照组的比对下,Med-PaLM-2的答案在八个维度上都优于人类医生的答案。 另一个重要的应用方向是协助医护人员指导患者,使得医患沟通更加顺畅。首先,LMM能够根据患者的具体病情、病史以及其他相关信息,生成个性化的健康教育材料和建议,帮助患者更好地理解他们的健康状况,提高他们的自我管理能力。其次,通过训练,LMM能够理解并回答患者关于疾病、治疗程序、药物使用等方面的常见问题。这不仅可以减轻医护人员的工作负担,也可以为患者提供即时的信息支持。此外,LMM还可以通过分析患者的语言和情绪来提供沟通建议,帮助医护人员更有效地与患者进行交流。LMM还可以分析从可穿戴设备或家庭医疗设备收集的数据,监控患者状态,及时发现患者状况的变化。美国的一项研究发现,在回答患者在线论坛上提出的病情相关问题时,由ChatGPT驱动的聊天机器人比合格的医生表现得更好,近八成情况下聊天机器人的回答更能获得评估人员的青睐。 此外,利用语言模型的自动化来处理优化文书等行政工作也是应用方向之一。2018年美国医学协会的一项调查显示,70%的一线医生认为日常的文书工作如患者电子健康记录挤占了日常工作时间,在很大程度上加剧了医生的职业倦怠感。而以GPT-4为代表的多模态的生成式人工智能,有望将医生从日常工作中最烦琐、负担最沉重的部分解放出来。在相关实验中,GPT-4能够“听懂”医患的对话记录,并在此基础上以病历笔记的形式进行总结后录入电子健康记录系统。对于许多专注于开发自动化临床文书产品的公司来说,以GPT-4为代表的多模态生成式人工智能将成为一项颠覆性的技术。 大型多模态模型常被认为可能给包括医疗领域在内的经济社会发展带来新的机遇,但也有悲观者认为LMM可能带来巨大的风险隐患,最终造成灾难性后果。就目前而言,LMM的发展应用正在带来多方面的风险和挑战。《指南》对数字鸿沟的现象作出预言,提醒世人警惕算法偏见,提升医疗领域应用LMM的安全性与公众信任度。本部分将重点聚焦于LMM的安全风险和治理挑战,以及发生事故后侵权责任分配的伦理困境。 2.1 LMM与医疗的结合,对可靠性、 准确性问题提出了更高的要求 但在医疗领域中,LMM的运用则对可靠性、准确性问题提出了更高的要求,一旦LMM的运用出现问题时,可能引发严重的伦理挑战。例如,诊断辅助工具或治疗建议LMM的准确性不足,可能导致医生基于错误的信息作出医疗决策。这不仅可能对患者的健康造成直接的负面影响,而且还可能削弱医生的专业判断力。此外,如果LMM系统在设计或训练数据上存在偏见,可能会错误地诊断或治疗某些人群,如系统主要用某一种族的数据训练,可能无法准确地诊断其他种族的疾病,变相加剧医疗不平等。 现有的医疗大模型在测试中暴露出“不可靠”的迹象。2022年秋天,大模型AI达芬奇3在完成一次患者病历笔记任务中便出现了“幻觉”。在病历中,达芬奇3写道:“患者体重严重不足(BMI14.8)……”但实际的医患对话中并未提及有关患者体重的任何数据,因此达芬奇3实际上仅凭经验性猜测去编造并给出看似可信的BMI数值。在医学领域中,信息输出不准确是一个严重问题。 2.2 医疗AI大模型存在价值对齐问题 在医疗领域,大模型前沿技术的使用已经暴露出其伴随着风险和挑战,尤其是当它们的行为与人类的最佳利益和福祉背道而驰时。在实践中,科学家发现AI已有能力对人类实施如“情感操纵”等有害行为,一名患有焦虑症的比利时患者与机器人密集对话之后选择自杀的悲剧为我们敲响了警钟。医疗健康领域直接关系到人们的生命健康,涉及敏感的个人数据和生命决策,因此,在医疗健康场景下,实现大模型的价值对齐变得尤为重要。如果AI系统的建议与医疗伦理原则不符,可能会造成医疗决策的错误导向。例如,基于偏见的数据训练得出的诊断模型可能对某些族群的疾病诊断不准确,导致错误治疗甚至延误治疗,随着数据集不断扩大,LMM中编码的偏见可能自动地扩散至整个医疗保健系统。此外,LMM的广泛应用,可能加剧医疗资源的不平等分配。《指南》指出订阅LMM的费用门槛可能导致不同国家、不同地区、不同民族无法平等地获取LMM医疗资源。 价值对齐是系统工程,对算法歧视、能力涌现、技术滥用等突出问题都有所回应。未能在大模型设计开发和部署过程中实现价值对齐,则LMM在医疗领域的后续使用中可能影响医患之间的信任关系,产生歧视、偏见、隐私泄露等伦理问题。 2.3 损害结果发生时的责任分配问题 尚不明确,伦理问责的缺失增加 LMM系统性风险 一方面,技术复杂性导致责任模糊。AI系统的决策过程往往基于复杂的算法和大数据分析,这种“黑箱”特性使得追溯具体决策逻辑变得困难。当AI推荐的医疗决策导致患者受损时,界定是技术故障、算法缺陷,还是数据问题导致的错误变得不明确。另一方面,多方参与也使责任划分难上加难。医疗AI系统的开发、部署和使用涉及多个参与方,包括但不限于AI技术供应商、医疗机构、医护人员和患者,AI技术供应商又可以细分为数据采集端、算法设计端、故障测试端等,认定每个参与方在系统开发和应用过程中扮演不同角色是关键。这些问题都对现有法律体系提出了挑战。 医疗领域的大型多模态模型 治理进路 3.1 落实大模型全生命周期安全措施, 打造可信的医疗大模型应用 AI RMF为人工智能系统的全生命周期提供了一个全面的风险管理方法,这对于中国在制定或优化AI相关政策和标准具有一定借鉴意义——整个大模型AI的生命周期都需采取与现阶段相适应的措施。从行业实践来看,在预训练阶段,主要是针对性扫除数据问题,重点是减少训练数据中虚假文本数据的数量,提高医疗领域专业文本的质量。在模型发布之前邀请专业人员开展对抗测试(Adversarial Testing)或红队测试(Red Teaming),对模型发起各种攻击,以发现潜在问题并予以解决。例如,在GPT-4发布之前,OpenAI公司聘请了50多位各领域学者和专家对其模型进行测试,帮助发现其模型在不准确信息(幻觉)、有害内容、虚假信息等方面的问题。在用户交互阶段,实施内容管控,对输出信息的真实性加以验证并识别利用医疗模型作恶的有害提问。此外,开发对AI生成内容的检测识别技术,通过训练专门的AI模型来识别生成式AI生产的文本、图像、音频、视频等各类合成内容,确保内容的来源或真实性。在此思路下,以Deeptrace Labs为代表的新兴公司对深度伪造技术提供有效的检测工具和服务,确保数字内容的真实性和可信度。 3.2 践行伦理嵌入设计的AI伦理治理理念, 实现医疗大模型价值对齐 对于大模型而言,价值对齐是实现“伦理嵌入设计”的一个核心思路,行业在实践中多措并举保障AI价值对齐的实现。在实践中,目前业界将AI价值对齐作为对AI大模型进行安全治理的重要思路,并在技术上取得了客观的效果,在很大程度上确保大模型部署和使用中的安全与信任。AI对齐(AI alignment)作为大模型研发过程中的一个重要环节,目前主要有两种实现方式。一种是自下而上的思路,也就是人类反馈的强化学习,需要用价值对齐的问题对模型进行精调,并由人类训练员对模型的输出进行评分,再通过强化学习的方式让模型学习人类的价值和偏好。在技术上,人类反馈强化学习(RLHF)包括初始模型训练、收集人类反馈、强化学习、迭代过程等步骤。另一种是自上而下的思路,核心是把一套伦理原则输入给模型,并通过技术方法让模型对自己的输出进行评分,以使其输出符合这些原则。例如,OpenAI采取了人类反馈强化学习(RLHF)的对齐方法,Anthropic采取了AI反馈强化学习(RLAIF)的对齐方法即所谓的“原则型AI”(constitutional AI),这些AI对齐方法殊途同归,都致力于将大模型打造成为安全、真诚、有用、无害的智能助手。以RLHF为例,RLHF在改进模型性能、提高模型的适应性、减少模型的偏见、增强模型的安全性等方面具有显著优势,包括减少模型在未来生产有害内容的可能性。OpenAI将RLHF算法发扬光大,ChatGPT借此取得成功,能够在很大程度上输出有用的、可信的、无害的内容。除此之外,产业界还在探索对抗测试(红队测试)、模型评估、可解释AI方法、伦理审查、第三方服务等多元化的安全和治理措施,共同确保负责任AI的发展。 人类反馈的强化学习(RLHF)虽然被证明是一个有效的方法,但存在可拓展性差、受限于训练员的主观偏好、长期价值对齐难以保证等问题。RLHF方法通过引入人类专家的参与和评估,不仅帮助提升了模型的性能,而且让模型变得更加安全可靠。但单纯依靠人类反馈来训练AI系统是非常低效的,因此,在后续的技术发展中,逐渐开发出了可扩展监督(scalable oversight),利用AI的自我监督以及将AI作为人类监督者的助手更高效地对模型进行优化改进。破解大语言模型的“黑箱”属性,提高技术透明度,尝试用AI大模型解释大模型的方式,诱导其逐步呈现其逻辑。成立治理组织也是关键一环,除了设立伦理审查委员会外,人工智能领域的领头企业还尝试设立任务划分更为具体的安全责任团队,如OpenAI于2024年5月成立了安全与安保委员会(Safety and Security Committee)。此外,像网络安全领域的白帽黑客那样,AI治理也可以依靠社会力量来发现、识别、解决AI模型的安全和伦理漏洞,诸如算法歧视奖励、模型漏洞奖励等众包方式得到重视。 虽然AI价值对齐在技术上取得了一定的效果,但人们对最基础的AI价值问题依然没有形成共识:如何确立用以规范人工智能的一套统一的人类价值。目前看,选择哪些原则可能完全取决于研究人员的主观判断和价值观。而且考虑到我们生活在一个人们拥有多元文化、背景、资源和信仰的世界中,AI价值对齐需要考虑不同社会和群体的不同价值和道德规范。一是确保医疗数据集多元化,用于训练AI系统的数据集需具有代表性,涵盖不同种族、性别、年龄和文化背景的患者信息。二是建立由多文化背景的伦理学家、社会学家、医疗专业人员和患者代表组成的审查团队,完全让研究人员自行选择这些价值是不切实际的,需要更多的社会参与来形成共识,监督LMM的开发和部署过程。 3.3 改革医疗大模型侵权事故中的 责任承担制度 大模型智能医疗的诞生并未消除医疗产品责任的适用空间,但需要对现有的产品责任制度进行相应的改革和完善。欧盟新修订的《产品责任指令》已经明确将人工智能产品纳入适用范围。这一趋势为中国在医疗大模型侵权制度的完善提供了启示:通过对现有产品责任制度进行修订,深入剖析不同场景下的责任主体、完善AI大模型侵权构成要件如损害赔偿范围、产品缺陷以及因果关系的认定,使其适应数字世界的新要求是一种可以考虑的方向。 将医疗LMM侵权事故责任纳入产品责任规制范围,除了需要对“产品”作扩大解释外,还需要对AI领域的产品责任制度进行改造。首先,讨论人工智能系统的产品责任,关键是界定人工智能系统的生产者,明晰AI产品整个生命周期中不同的责任主体所扮演的角色;其次,LMM系统缺陷的概念需要得到明确,在AI语境下如何评估AI系统是否能按预期安全有效地运行,包括但不限于算法偏差、数据质量问题、安全漏洞等;再次,扩大人工智能产品损害的赔偿范围也有必要,可以考虑将医疗数据损失、患者精神损害等纳入可赔偿损害的范围;最后,通过建立信息披露和提供要求破解医疗大模型的算法黑箱,并辅以推定等减轻举证责任的规则,在缺陷、因果关系认定等方面适当将天平向弱势的被侵权人倾斜。 而LMM使用者承担过错责任更符合法理。在人工智能系统的使用中,过错责任原则要求证明使用者在操作人工智能系统时的不当行为或疏忽导致了损害。这一点对于自主学习和高度自主的人工智能系统尤为复杂,因为它们的行为可能超出使用者的直接控制。因此,对于那些已经尽到所有合理注意义务的使用者,应限制其责任,仅在使用者存在过错的情况下,由使用者承担侵权责任。如果损害是由于人工智能系统内在缺陷或不可预见的机器学习行为引起的,而使用者已经遵循所有操作规范和制造商指南,则无须承担责任。未来在医疗场景中,LMM的使用者承担过错责任中的一个核心考量是如何界定LMM使用者的注意义务,随着LMM介入医疗领域且有望改善医疗活动的准确性、可靠性,医护人员的注意义务可能发生改变,未来有必要通过规定先行义务来将注意义务规范化以便于判断责任方;同时,根据LMM在医疗领域中的发展应用水平对医护人员的注意义务进行相应调整,例如在一些情况下不依赖LMM的诊断结果可能被视为具有过错。这样既能激励在医疗活动中积极引入LMM应用,又能确保对医疗活动的受害人进行有效的救济。 结语 文献来源 曹建峰,徐艳玲.医疗领域多模态AI模型的机遇、挑战与治理应对[J].中国医学伦理学,2024,37(9):1023-1029.