当前位置：首页 > 技术融合与创新应用

医疗健康领域的AI智能体：应用、评估与未来方向

发布时间：2026-05-31 来源：融和科技浏览量：字号：【加大】【减小】手机上观看

打开手机扫描二维码
即可在手机端查看

文章来源：

Zhao, L., Liu, S., Xin, T. et al. AI agent in healthcare: applications, evaluations, and future directions. npj Artif. Intell. 2, 31 (2026). https://doi.org/10.1038/s44387-026-00076-4

通讯作者：

Zongjiu Zhang，清华大学医院管理系；Chen Qian，上海交通大学人工智能学院。

摘要

随着大语言模型技术的快速发展，AI智能体在医疗健康领域迅速涌现。本综述梳理了AI智能体的历史演变与核心特征，系统考察了其在辅助诊断、临床决策支持、医疗报告生成、面向患者的聊天机器人、医疗系统管理及医学教育等方面的应用。我们进一步分析了现有的医疗健康AI智能体评估框架，聚焦关键维度与性能指标。展望未来，我们提出了七个关键发展方向：与具身系统融合、混合专家模型、扩展评估范式、安全与可控性保障、伦理治理与用户信任，以及医疗人员角色演变的引导。本综述旨在为医疗健康AI智能体的开发与实施提供全面视角，为未来研究、实践与治理提供理论支撑。

引言

大语言模型的最新突破使其在医疗健康领域得到快速采用，在医疗问答、电子健康记录生成和临床决策支持等方面有广泛应用。与此同时，基于大语言模型的智能体正在迅速涌现。事实上，在临床实践中，医疗专业人员经常面临多模态且高度异构的数据、繁重的工作负荷，以及对时间紧迫的临床决策的迫切需求。在此背景下，AI智能体提供了一个有吸引力的解决方案：它们不仅能理解和生成人类语言，还能通过工具使用自主编排多步骤任务，从而展现出目标导向的推理和决策能力。因此，智能体正日益被视为医学技术的前沿。

初步研究已探索了AI智能体在医疗健康领域的潜力。例如，Qiu等人考察了其在诊断支持和工作流优化方面的应用，同时也强调了与数据隐私和过度依赖相关的挑战。其他学者分析了智能体AI在诊断、临床运营、药物开发和机器人辅助干预中的核心功能。还有一些学者对当前应用场景进行了广泛概述，强调了幻觉、泛化能力有限和伦理关切等风险。Moritz的最新工作进一步阐明了医疗健康中协调多智能体系统的范式，强调了去中心化但可互操作的大语言模型驱动智能体的潜力——这些智能体协作优化临床和运营工作流，同时概述了核心实施挑战，包括安全通信、互操作性和临床场景中的验证。然而，与医疗健康领域快速扩展的大语言模型文献相比，专门聚焦于基于大语言模型的AI智能体的研究仍然稀缺。此外，现有综述在广度、评估深度和理论框架方面往往不足。本研究旨在通过提供更全面、更结构化的综述来填补这些空白，以支持医疗健康AI智能体的开发与部署。

为应对围绕基于大语言模型的AI智能体在医疗健康领域部署日益增长的兴趣和不确定性，本综述试图回答以下总体问题：基于大语言模型的AI智能体在医疗健康领域的当前现状如何？如何有效评估其实施？如何引导其部署以确保安全、可控性和可靠性？为回答这一问题，本综述有四个目标：（1）综合基于大语言模型的AI智能体的概念基础、历史演变和定义特征；（2）绘制并分析其在医疗健康领域的应用场景和代表性系统；（3）构建涵盖临床和人文维度的多维评估框架；（4）识别并讨论未来发展的关键方向。

本文其余部分组织如下：第2节回顾AI智能体的演变和区别特征，对其在医疗健康领域的应用进行分类，并介绍多维评估框架；第3节讨论未来发展的七个关键方向，并以研究发现、局限性和实践启示的总结结束；第4节介绍我们使用的方法。

结果

智能体的历史演变

"智能体"（Agent）一词的概念化可追溯至哲学沉思的深处，跨越理论思辨与实际技术实现的领域。对"智能体"的理解追求已超越学科界限，标志着一场跨越各学术领域的不懈旅程。古希腊哲学家对智能机器表现出兴趣。在这一时期，哲学家开始描述拥有欲望、信念、意图和行动能力的实体，从而照亮了智能体这一萌芽概念。亚里士多德阐述的"目的"概念，随后为后续时代定义智能体的目标导向特征提供了哲学基础。

在当代，随着自然科学和计算机技术领域取得的进展，人工智能研究领域经历了从哲学沉思到实际应用的转变。20世纪50年代，艾伦·图灵提出了著名的"图灵测试"，随后成为评估机器智能的关键基准。20世纪70年代专家系统的出现，主要涉及利用人类专家知识通过计算机程序促进推理和决策。机器学习技术的出现——促进从数据中获取知识和技能——使智能体的智能得到了实质性提升。21世纪，深度学习技术在感知、决策、执行能力和应用场景扩展方面取得了重大突破，为智能体的发展带来了革命性进展。值得注意的是，强化学习领域，特别是多智能体强化学习，已取得实质性进展，成功解决了机器学习中众多序列决策问题。这些进展使智能体能够在复杂环境中做出更优决策。

2022年之后，AI渗透到社会各个方面，特别是随着大语言模型的普及，为智能体的发展开辟了新途径。建立在大型AI模型基础上的AI智能体引领了加速增长和发展的时期。基于大语言模型的AI智能体相比强化学习智能体拥有更丰富的知识库、更自然的人类交互能力和更好的可解释性。例如，OpenAI推出了Custom GPT功能（GPTs），允许用户通过整合知识、操作和指令来创建自己的GPT。谷歌通过Gemini系列模型推出了智能体框架，支持多模态任务处理。Meta开源的LLaMA系列模型催生了大量社区驱动的智能体应用。Anthropic的Claude模型通过Constitutional AI框架在安全和可控性方面为智能体树立了新标准。DeepMind的Sparrow项目展示了将语言模型与强化学习结合的创新路径。这些发展为个性化AI助手的广泛使用铺平了道路，标志着AI智能体技术多元化生态系统的形成。

大语言模型的出现促使众多组织优先发展基于大语言模型的AI智能体，特别是在医疗健康领域。例如，IBM Watson Health利用自然语言处理、机器学习和大数据技术，为医疗机构提供一系列智能服务，包括辅助诊断、患者护理和药物开发。AI智能体的整个发展历程如图1所示，标注了关键里程碑。

图1.AI智能体的演变

智能体的解读

目前学术界尚无普遍接受的AI智能体定义。1998年，Cristiano Castelfranchi提出AI智能体的概念，即能够目标导向、社会智能、读心、适应性和灵活性，并能自主做出决策和采取行动的智能实体。Weng将AI智能体定义为以大语言模型为核心控制器的自主系统，通过规划、记忆和使用工具的能力处理复杂任务，即"大语言模型+记忆+任务规划+工具使用"。李飞飞团队将AI智能体表征为能够感知环境、做出决策和执行行动的智能实体，其核心聚焦于使用大语言模型或视觉语言模型来增强系统的交互性和适应性，强调其任务执行规划和使用大规模知识并推理的能力。Parisi将AI智能体描述为能够使用外部API工具来扩展模型能力的系统。Schick等人探索的语言模型通过学习使用工具来提升性能，这表明AI智能体是一种能够自主感知环境、理解任务需求，并根据这些需求选择和执行适当行动（包括调用外部工具）的智能系统。

在上述定义中，Weng的表征以大语言模型为核心控制器，并将规划、记忆和工具使用系统地整合为统一框架，特别适合构建能够处理复杂多步骤任务的自主系统。与Castelfranchi早期宏观层面的认知架构视角相比，Weng的描述更具操作性且更易于实施。与Parisi、Schick等人工作中强调的工具调用和功能扩展相比，它提供了更整体和自主的系统构想。因此，本研究采用Weng的定义，将AI智能体概念化为以大型语言模型为中央控制器的自主智能系统，辅以四个关键模块：规划、记忆、工具使用和自我反思，以确保在医疗健康领域高效可靠地执行特定领域任务。

智能体的特征

文本理解与生成。AI智能体与大语言模型结合时，展现出强大的文本理解和生成能力。这种能力体现在其对文本上下文信息的深入理解，以及生成自然流畅文本内容的强大文本生成能力上。这在对话系统、内容创作等领域带来了革命性变化。这种理解与生成能力的结合使AI智能体能够更智能、更个性化地与人类交互，提供更精细和定制化的服务。

工具使用与交互性。除了强大的学习和处理能力外，AI智能体还能自主学习如何使用外部工具。它们能够为特定情境选择最合适的工具，并通过API调用等方式获取所需信息或执行特定操作，从而进一步提升任务处理的效率和准确性。这种工具使用能力的引入增强了AI智能体的自主性，并为其与人类或其他系统的交互提供了更多可能性。

任务处理与泛化能力。AI智能体的整合能力对AI领域的发展具有重要意义。AI智能体与其他信息系统和设备无缝整合的能力促进了它们之间的协作和信息共享。例如，在诊断支持场景中，AI智能体可以与电子健康记录系统、影像归档与通信系统和实验室信息系统整合，自动提取患者的多模态数据。这辅助医生进行全面决策，减少人为错误，提高诊断准确性和效率。基于大语言模型的AI智能体在处理任务时展现出的极大多功能性和灵活性，证明了它们能够处理许多不同的任务和问题，并在多个领域间自由切换。这种广泛的适用性和强大的任务处理能力是推动AI智能体成为解决复杂问题和促进智能化转型的重要工具。

逻辑推理与任务分解。基于大语言模型的AI智能体的使用可以类比为赋予智能体更强大的"大脑"。大语言模型拥有逻辑推理能力，这一能力可通过智能体实施提示策略进一步增强。然而，如果提示不足以有效激发大语言模型本身的推理能力，用户可能难以获得满意的答案。相反，添加辅助推理提示可显著提升大语言模型的推理有效性。自主智能体生成与特定目标一致的定制提示的能力，凸显了其在处理复杂推理任务时更有效地激发和利用推理能力的潜力。

学习与适应能力。与传统AI技术相比，基于大语言模型的AI智能体展现出卓越的学习和适应能力。这些智能体从大规模数据中自主学习，提取关键信息，并持续优化其性能。这些智能体能够从大量数据中自主学习，提取关键信息，并持续优化自身性能。这一过程对大量人工标注或预设规则的依赖极小。此外，这些智能体具备从有限甚至零样本中获取知识的能力，在快速适应新任务或小数据集的同时展现出令人称赞的性能。而且，系统的高度可扩展性鼓励性能的持续提升和自我驱动的演进，以满足大量应用日益增长的需求。图2综合了AI智能体的这五项核心能力。

图2.AI智能体的能力特征

智能体的应用

AI智能体在教育、工业、金融、交通、物流等多个领域展现出巨大应用潜力，这归功于其先进的灵活性和智能处理能力。例如，在金融投资领域，Robo-advisors是智能机器人投资顾问应用的突出代表，能够通过利用技术、算法和科学投资组合理论创建和管理多元化投资组合。FinRobot是一个新型开源AI智能体平台，利用大语言模型驱动多个AI智能体，专注于金融领域，提供更有效的财务建议、投资组合管理和风险预测。在自动驾驶领域，Jiageng Mao等人研究的Agent-Driver赋予AI智能体直觉性常识和强大的推理能力。在教育领域，可汗学院推出了AI教学助手Khanmigo，它不仅为学生提供学科咨询，还提供实时跟踪和智能评估，并以教师角色编写教案和规划课程。

医疗健康领域的AI智能体应用

医疗健康领域AI智能体应用的探索聚焦于辅助诊断、决策、报告生成、聊天机器人、医疗管理和医学教育。图3详细展示了AI智能体在这些领域的应用。

图3.AI智能体在医疗健康领域的应用

辅助诊断：辅助诊断是AI智能体在医疗健康领域最常见的应用之一。从技术角度看，一些研究表明多智能体交互可以提高诊断准确性并纠正历史记录中的错误。因此，研究者经常利用专家模拟、患者交互和多智能体协作来提升诊断性能。例如，清华大学通过模拟医疗机构中医护人员和患者的真实场景构建了智能体医院，从而提升了医患交互中的智能水平。同样，哈尔滨工业大学的助理驱动专家咨询模型通过具有不同知识背景的多个智能体模拟专家研讨会。ClinicalAgent采用专用大语言模型提供定制化科室支持，使模拟与真实临床环境紧密对接。从辅助诊断的目标领域来看，除了斯坦福大学MMedAgent等利用多模态影像检测、分割和分类医学影像的通用诊断辅助系统外，AI智能体越来越多地应用于专科领域。为心脏病学开发的ZODIAC提取临床相关特征、检测心律失常，并辅助诊断决策。百度的AI智能体可辅助新生儿耳廓畸形诊断，MAGDA系统将放射影像与临床指南整合以增强推理。

辅助决策：决策是AI智能体在医疗健康领域展现巨大潜力的另一关键领域。与辅助诊断领域类似，许多医疗场景涉及多个学科和角色，因此研究者经常整合不同数据源，建立具有互补专长的不同智能体，并启用基于角色的交互，旨在利用多智能体协作提升临床决策的质量、可解释性和共识。例如，耶鲁大学的MedAgents采用角色扮演和多学科讨论来迭代提升可信度和可解释性，最终促进共识决策。MDAgents根据场景复杂度建立不同智能体，如全科医生和专家，通过结构化多学科团队协作支持决策。同样，MEDAIDE通过查询重写、意图识别和多智能体协作来提升对临床意图的理解，增强复杂情境下的决策有效性。从应用角度看，辅助决策也已应用于专科领域。例如，在肿瘤治疗中，海德堡大学医院为肿瘤场景开发的智能体能够进行文本、放射和组织病理学影像解读、基因组数据处理、网络搜索和医学指南文档检索。在急诊护理中，一个由急诊医生、分诊护士、药剂师和调度员组成的多智能体系统整合了急诊分诊评估量表，以提升决策的质量、效率和安全性。此外，还有专门从事临床错误和纠错任务的多智能体，通过分解观察、评估、反思和格式化的步骤，实现对医疗决策的正向和负向分析。

辅助报告生成：辅助报告生成是AI智能体在医疗健康领域较早的应用之一，最初的努力主要旨在辅助放射科医生解读医学影像并缓解人力短缺。例如，斯坦福大学的CheXagent专注于胸部X光片的解读，能够通过影像分析和文本响应生成放射报告，其在视觉任务上的表现超过通用领域模型97.5%。同样，CXR-agent是另一个专注于胸部X光片的智能体，能够实现病理检测、分类、定位和临床报告生成。在后续发展中，研究关注点已扩展到提升报告质量、准确性、可读性和以患者为中心的沟通。例如，医学通用智能体利用现有医疗报告构建医学词典，并匹配最相关的句子来形成医疗报告，从而提升报告生成的准确性和专业性。值得注意的是，由于报告生成的专业性，先前研究大多聚焦于单智能体系统，这可以确保计算效率和语义一致性。随着对医患体验的关注增加，近期研究已开始嵌入式多智能体架构来优化报告生成过程。这种方法能够生成对患者友好的报告，从而减轻临床医生的工作负荷，同时提升可读性并改善整体患者体验。

辅助健康管理：辅助健康管理已成为AI智能体在医疗健康领域应用的一个突出方向，其中对话式智能体是主要形式。对话式智能体（即聊天机器人）能够使用自然语言与人类交互。随着机器学习的持续演进，对话式智能体开始涌现。它们能够处理更复杂的信息，从而能够以更个性化和精确的方式回应健康需求。在此背景下，该领域的大多数研究主要聚焦于心理健康，例如Agent Mental Clinic（AMC）是一款专为抑郁症诊断设计的对话智能体，通过建立患者角色、精神科医生角色和监督角色来复制医患交互，以辅助抑郁症诊断。MISHA面向学生，提供压力管理和放松技巧等方面的心理教育，并有助于缓解学生可感知的压力。研究范围涵盖缓解自杀念头和减少创伤后孤立等主题。在心理健康领域之外，减重咨询和皮肤管理领域也有相关研究。在交互方式上，对话式智能体以文本为主，但Polaris通过电话或语音进行交互，采用护士、医疗助理、社会工作者和营养师等角色来实现健康管理功能，包括用药依从性、预约查询和饮食调整。

辅助医学教育：医学教育是另一个应用场景。研究者经常利用多智能体系统基于真实医疗场景模拟各种角色（如患者或教师），以创建交互场景来提升医学生的能力。例如，密歇根大学开发的AI Patient能够模拟患者，通过建立知识图谱并融入检索、推理和生成等多个智能助理角色，可以增强模拟的有效性和可信度，并有助于医学生的教育。香港中文大学开发的MEDCO强调临床病例培训，通过设置患者模拟、资深医生和专家反馈以及多学生交互来提升医学生水平，提供更个性化和准确的医学教育。ChatCoach可以通过设置医生、患者和教练等角色并模拟医疗场景对话，帮助医学生提升与患者的沟通能力。除了通用医学知识的教学外，一些研究已扩展到专科教育，例如专为放射肿瘤学教育设计的基于大语言模型的聊天机器人已成为专业医疗培训的有价值工具，提升了医学教育的可及性、个性化和交互性。

辅助用药管理：在药物管理领域，研究者通过模拟不同阶段的流程，探索了处方管理、不良事件预防和临床试验中药物疗效预测等方面的应用。相应地，Rx Strategist提供了多智能体处方验证概念，通过知识图谱检索和药物信息集检索来促进适应症和剂量验证。MALADE优先考虑药物警戒，通过设计多智能体协同来识别药物不良反应。为临床试验开发的多智能体系统ClinicalAgent能够分析和评估药物对疾病的潜在疗效，并进行药物安全性分析。

辅助医院管理：在医院管理领域，减少医生负担、提升效率和优化流程至关重要。电子健康记录（EHR，或电子病历EMR）复杂的计算机操作和管理职责已被认定为导致医生负担和倦怠的因素⁶³。因此，众多研究者将注意力转向这一领域，努力从智能体角度寻找解决方案。EHRAgent通过自主代码生成和执行促进临床医生与电子健康记录系统之间的直接沟通，提升医生效率和体验。Almanac Copilot可以通过自动化常规任务和简化文档流程来协助临床医生处理EMR相关任务。ColaCare的方法聚焦于电子健康记录建模和临床预测，利用DoctorAgent和MetaAgent来模拟不同专科医生之间的协作决策过程，从而促进增强的临床决策和个性化精准医学的实施。此外，还有研究者聚焦于事先授权，通过构建多智能助理系统来分解这一任务，以自动化并减轻医生的工作负荷。在医疗保险方面，也有研究在多智能体范式下调查了国际疾病分类编码的利用。

此外，生物医学知识领域也在进行研究，涵盖生物实验设计、细胞生物学、化学生物学和遗传学等方面。在初级卫生保健层面，涉及建立任务难度评估智能体、专家智能体和响应简化智能体，以及融入地域文化和当地语言，为初级卫生保健提供参考。

值得注意的是，尽管AI智能体在医疗健康领域具有广泛潜力，其实际部署仍面临几个关键挑战：（1）幻觉。在罕见疾病或模糊临床表现的情境下可能出现诊断幻觉，智能体生成自信但实质上错误的结论，从而带来临床风险。（2）缺乏可解释性。AI智能体的决策过程往往缺乏透明度，使临床医生难以追溯底层推理，进而削弱信任并限制采用。（3）责任归属不明确。当AI智能体生成诊断或治疗建议时，在出现错误结果时法律和伦理责任缺乏明确定义，这仍是临床实施和治理的重大挑战。（4）数据相关问题。一方面，训练数据集可能在性别、种族和地域等维度上存在不平衡，导致特定人群的性能下降并产生损害健康公平的不公平决策。另一方面，医疗数据的使用涉及高度敏感的个人信息；在缺乏健全的数据治理框架和安全保障的情况下，隐私泄露和伦理违规的风险增大。

针对这些挑战，以下各节将进一步探索旨在支持AI智能体在医疗健康领域更科学、更稳健、更可信部署的多维评估框架。

医疗健康AI智能体的评估

随着大语言模型在医疗健康领域获得关注，其交付临床价值的潜力在很大程度上取决于确保每个运营组件的可靠性、有效性和安全性。没有严格的评估，AI智能体可能在医学推理中存在潜在缺陷，这些缺陷可能转化为诊断不准确或不当的治疗建议，从而危及患者安全。即使是为决策支持而设计的系统，如果测试不充分，也可能产生模糊或不一致的指导，迫使临床医生交叉核对输出，并打乱已经负担沉重的临床工作流。除了这些直接风险外，评估不足还会加剧对偏见、公平和数据隐私的关切，所有这些在敏感的医疗环境中都至关重要。在此背景下，本节探讨AI智能体的评估对象、比较对象和维度以及评估指标。

在医疗领域大语言模型大语言模型的评估过程中，评估对象通常分为三类。一类是其他大语言模型，这是经常采用的方法，如GPT-4/GPT-4o、Gemini-Pro。这些模型使得能够从性能、功能和其他相关指标方面评估医疗大语言模型的智能水平。第二种方法涉及人类评估，即根据所需智能类型邀请相关医疗领域的专业人员，包括各学科医生、专家、持证护士、临床药剂师以及放射和影像专家。临床专家凭借其丰富的专业知识和实践经验，从医学专科角度评估模型的输出，如诊断结果的合理性和治疗方案的可行性。他们的评估结果体现了权威性和专业性。第三类是公平测试集，包括MedQA、PubMedQA、MultiMedQA以及根据特定需求定制的其他数据集。测试集能够提供大量标准化数据样本，模型在测试集上的表现使得能够对模型在不同任务和知识领域的能力水平进行更客观和定量的评估。

主要比较对象是基线模型和专家行为结果。基线模型涵盖行业领先的大语言模型，如GPT-4/GPT-4o、Gemini-Pro、LLaMA、Mixtral，以及医疗健康专用模型，如BioGPT、Meditron、Med-Flamingo和BioMistral。这些基线模型为被评估模型提供了参照框架。通过将被评估模型与基线模型在各种性能指标上进行比较，可以清晰了解其相对于类似模型的定位和水平。这种比较还可以揭示模型的独特性或需要改进的方面。相反，专家行为结果聚焦于将大语言模型智能体的表现与人类临床专家的诊断结果、治疗决策和问答得分进行比较。例如，在疾病诊断任务中，将模型诊断结果的诊断一致性与临床专家进行比较；在治疗方案推荐中，将模型给出的方案的合理性和有效性与专家制定的方案进行比较。通过衡量大语言模型与人类专家在医学专业判断和决策上的差异或相似度，可以更准确地确定模型在医疗领域的实际应用价值和有效性，从而为模型的优化和改进提供明确的目标和方向。

表1.AI智能体在医疗健康领域的评估维度和指标

多方面的指标维度及相应评估指标如表1所示，可具体分为两类：基础指标和发展指标。现有研究表明，准确率和F1分数等定量指标仍然是最常用的衡量标准，提供了对模型性能的精确统计评估。然而，近期研究越来越强调其他方面，包括效率、伦理合规性和医患交互体验。总体而言，这些指标反映了从基本可行性到综合卓越的演进过程。基本可行性对应基础指标，代表确保安全有效交付医疗服务所需的最低标准，包括客观正确性、语义正确性、任务完成。综合卓越对应发展指标，反映在复杂临床情境中对高质量、以人为本和可持续性能的追求，包括效率水平、内容与呈现水平和人文关怀。有关指标的详细解释，请参见补充信息A。

客观正确性：包括准确率、精确率、召回率、F1分数、ROC、AUC等指标，用于衡量模型预测结果的正确性。这些指标评估AI智能体生成的结果与经过验证的医学事实、基准数据集或其他参考标准的客观一致程度，从而反映模型在不同医疗健康任务中的定量可靠性。例如，耶鲁大学的MEDAGENTS主要使用准确率来评估模型性能。专注于临床试验的ClinicalAgent也使用准确率、ROC-AUC、精确率、召回率和F1分数评估其结果。

语义正确性：有BLEU/GLEU、METEOR、BERTScore和ROUGE等指标可用于评估模型的语义正确性。这些指标通过评估模型生成的文本与参考文本在词汇和语义结构方面的相似度，来确定模型理解和表达语义的能力。例如，Dingkang Yang通过将其预诊断结果与基线模型进行比较，使用BLEU-1/2（%）、ROUGE-1/2/L（%）和GLEU（%）等指标验证了医疗智能体的多维健康风险评估能力。

任务完成：完成率和成功率用作指标，考察模型完成特定医疗任务的程度。在更复杂的智能体情境中，任务完成可能涉及自主选择、调用和协调外部工具以实现给定目标的能力，反映智能体的过程推理和执行能力。例如，海德堡大学医院为肿瘤学开发的临床决策智能体将工具识别和使用的准确率以及工具使用的准确性和正确性作为关键评估指标。同样，工具利用是斯坦福大学MMedAgent评估任务完成的主要标准。

效率水平：重点关注响应时间和交互轮次，以评估模型的运行速度和交互便捷性。响应时间缩短意味着模型能更敏捷地回应用户输入，这可以在医疗咨询等场景中提升服务效率。交互轮次数指示模型需要与用户进行有效交互的频率。交互轮次数减少意味着模型能够更敏捷地理解用户需求并提供准确的回应或解决方案。例如，Lang Cao采用"轮次数"指标——定义为完成任务导向对话所需的平均轮次数——在20个场景中测试智能体的对话质量。轮次数越低意味着效率越高。

内容与呈现水平：通过内容丰富度、细节、实用性、安全性和伦理合规性等指标，分析模型提供的文本信息的整体可读性、清晰度、连贯性和实际应用价值。这些指标考察输出是否具有临床意义、是否可理解以及是否在伦理上适当。高质量的内容与呈现应为临床任务传达足够的细节和深度，同时对专业人员和患者都易于理解。例如，CheXagent是一个用于生成放射报告的智能体系统。研究团队不仅评估了报告的完整性、正确性和简洁性，还邀请放射科医生评估文本质量。此外，该研究评估了与性别、种族和年龄相关的潜在偏见，以确保公平性。

人文关怀：包括隐性症状下的准确率、人文关怀、信心、依从性、咨询和满意度等指标，聚焦于模型在医疗情境中对患者心理和医疗服务需求的关注程度。这些指标反映了医疗AI智能体系统所强调的人文理念——尊重患者的情感、自主权和社会背景。例如，Samuel Schmidgall指出医生中的隐性偏见可能影响诊断判断和治疗计划，而患者的偏见影响信任和依从性。因此，在评估AgentClinic时，团队纳入了与医患交互和医生共情相关的指标，以捕捉以人为本的关怀维度。

值得注意的是，本文提出的双层框架为评估AI智能体提供了概念性指标。然而，其在实际场景中的应用仍有待进一步探索。事实上，开发官方和可操作的评估体系仍面临众多挑战，目前尚不存在成熟且广泛采用的框架。然而，在这一过渡阶段，AI+医疗评估的监管探索已逐渐出现。例如，英国MHRA的"AI Airlock"沙盒机制是一个旨在为AI医疗器械提供受控测试环境的监管沙盒，评估重点关注以下指标：安全/质量、有效性、采纳度、公平/稳健性。同时，欧盟的CORE-MD项目提出了一个主要由以下指标组成的评估框架：有效临床关联得分、有效技术性能得分和临床性能得分。此外，中国国家药品监督管理局已发布AI辅助检测医疗器械（软件）临床评价和注册审查指导原则，提出了以下关键评估指标：诊断准确性指标（如敏感性、特异性和ROC曲线下面积）以及临床参考标准构建。这些评估框架为评估AI智能体提供了有价值的参考，其实践经验和指标体系为未来评估体系的发展提供了重要借鉴。

讨论

本节概述七个未来研究方向：

第一，与具身机器人融合。随着全球人口老龄化加速和医疗人员短缺加剧，具身机器人——拥有物理形态并能在真实环境中直接与人类交互——已成为改善医疗服务交付的有前景的解决方案。以达芬奇手术系统为代表的系统已展示其在提升手术精度和降低医疗风险方面的核心价值，标志着医疗操作从纯手工程序向人机协作范式的转变。尽管具身机器人在特定医疗领域取得了突破，但其大规模采用仍面临挑战：大多数当前系统严重依赖预编程程序，安全和容错机制对于复杂医疗场景仍不充分，最关键的是，具身机器人与患者的交互仍停留在机械响应层面，尚未实现真正人性化的医患沟通。这些瓶颈导致具身机器人在医疗应用中的渗透率有限。大语言模型的持续发展有望将AI智能体与具身机器人的融合提升到新水平。这种融合将通过利用物理机器人（如手术辅助和医疗护理）为患者提供更直接的医疗服务。这反过来将使AI智能体与患者在现实世界中直接交互，从而实现更人性化和个性化的医疗服务。

然而，值得注意的是，这种融合引发了与安全、责任归属和患者隐私相关的重要关切，并将要求医疗系统通过建立具身机器人协作指南、加强监督机制和确保符合伦理与监管框架来做出适应。

第二，混合专家模型组合。随着AI技术在医疗健康领域的深入应用，智能智能体越来越多地处理复杂医疗数据，直接影响诊断效率和患者安全。虽然大规模预训练模型提供了强大的泛化能力，但在面对专业临床任务时往往表现出有限的精确性、可解释性和适应性。混合专家模型——结合专家混合框架——已展现出解决这些局限性的巨大潜力。通过动态激活和整合针对特定临床任务的专业化子模型，专家混合方法增强了医疗AI系统的可靠性、可解释性和领域相关性。

实际部署的证据已开始出现。例如，MoE-SLU在医疗语音咨询中的早期实施利用专家混合模型对多个ASR假设进行加权融合，在三个基准数据集上使关键词识别准确率提高了3.4–5.1个百分点。这表明专家混合已超越理论构想，正在专业医疗AI系统中得到验证。总体而言，专家混合的融入提供了一种高度有效的策略来组合各组件的优势，在保持效率和可解释性的同时提升决策可靠性。

第三，评估指标的扩展。多维评估工具有助于全面评估AI智能体的真正价值，使医疗专业人员、患者和管理者能够形成现实的期望。这对推动AI技术在医疗场景中的标准化应用至关重要。然而，当前主流指标主要强调准确率、效率水平和语言表达能力等传统性能指标，未能充分反映AI系统在现实临床环境中的综合效益——尤其是经济成本和临床安全等关键因素。此外，它们缺乏对用户体验和以人为本考量的可量化评估。

当前评估指标主要强调准确率、效率水平和语言表达能力等传统性能指标。必须认识到，为了促进相关用户群体（包括患者、医疗专业人员和医疗机构）对医疗领域AI智能体使用的信心，有必要开发实用且全面的评估工具。因此，迫切需要将医疗健康智能体的评估框架扩展至涵盖多维因素，除技术性能外，还包括经济指标（如成本效益分析、投资回报率和长期维护成本）、安全指标（如不良事件发生率）以及患者满意度或其他主观指标。

第四，安全与风险管理。随着AI智能体自主性的逐步增强，人工智能在医疗领域的应用即将迎来前所未有的突破。这一技术突破对提升诊断和治疗效率、优化医疗资源配置具有重大价值。然而，这一技术进步伴随着众多潜在风险和挑战，主要体现为临床信任度不足和安全风险控制机制缺乏。一个核心关切在于确保这些AI智能体系统决策过程的透明度和可解释性，以及减轻其对患者安全的潜在影响。

因此，迫切需要制定一套全面的标准化和可操作指南，涵盖技术安全措施，同时强调建立一个能够持续监控AI智能体系统性能、处理任何潜在偏差或错误、并确保系统能够及时响应紧急情况的全面监督框架。

第五，道德与伦理审查。随着基于大语言模型的AI智能体越来越多地嵌入临床工作流，道德和伦理考量将成为系统设计、部署和治理的关键维度。其中的核心问题包括数据隐私保护、算法透明度和责任归属。这些问题直接关系到基于大语言模型的AI智能体的可接受性和可持续性。例如，英国NHS与谷歌DeepMind之前的合作引发了对患者数据隐私和知情同意的关切，凸显了在敏感医疗环境中部署AI时潜在的伦理陷阱。

目前，相应的监管框架和最佳实践正处于积极发展和持续迭代阶段。欧盟《人工智能法案》将医疗AI系统归类为"高风险"，并要求开发者提供详细的技术文档和合规证明，以确保其安全性和透明度。同时，美国《算法问责法案》等立法倡议正试图厘清开发者、医疗机构和监管机构之间责任链中的法律边界。在此背景下，引入独立伦理委员会机制有助于审查人工智能在敏感医疗场景（如临终关怀）中的伦理合规性，提升决策的可接受性和社会信任。

尽管如此，利益相关者之间的责任归属仍存在模糊之处，而基于大语言模型的智能体在可解释性和自主性方面引入了独特挑战，必须在这些系统中予以适当应对。为确保基于大语言模型的医疗智能体的负责任演进，必须将伦理审查作为系统开发的基本组成部分。这应包括隐私保护的明确协议、透明算法决策的指南、临床医生监督、责任分配机制、患者隐私保护和人性化关怀。

第六，用户信任与反馈采纳。 AI智能体的广泛应用不仅依赖于技术突破，还需要解决用户——主要是患者、医生和医疗机构——的信任和采纳问题。建立信任机制（可信AI智能体）是未来研究值得关注的课题。在实践中，存在平衡多方利益相关者需求的困难、缺乏有效反馈回路以及用户怀疑等现实挑战。这些问题显著制约了AI技术的临床应用价值。

必须全面考虑包括患者、医生和医疗组织在内的多方利益相关者的需求和期望，以提升AI智能体的可接受性和用户社区的满意度。建立动态用户反馈机制有助于持续优化AI性能，并确保其建议与真实医疗需求相匹配。未来研究应更加重视多方利益相关者协作，将用户反馈直接整合到AI开发周期中，以构建智能且可信的医疗智能体系统。

第七，医疗人员的职业发展。机器人能否在职业发展背景下真正取代人类医疗人员，是一个长期以来备受社会关注的话题。精密AI智能体技术在医疗领域的出现，很可能对医疗人员的心理状态和职业轨迹产生深远而广泛的影响。另一方面，这将直接决定未来医疗服务的质量和效率。

然而，一些医疗人员仍对被机器取代感到担忧，这可能导致对AI采用的抵触或焦虑。事实上，从社会技术系统理论⁹⁴的角度来看，AI智能体的整合不仅代表技术进步，也代表医疗专业人员与其工作系统交互方式的转变。这种转变并非取代人类角色，而是强调技术与人类实践之间需要共同适应。为促进这一过渡，医疗系统应提供培训机会、制度支持和人机协作机制，确保医疗人员始终处于护理交付的核心。医疗人员可能在传统技能被重新评估时面临不确定性，但他们也有机会以强调与智能系统协作、数据驱动决策和增强以患者为中心的护理的方式重新定义自身角色，以充分实现AI辅助医疗的益处。

为进一步增强本综述的实践意义和现实相关性，我们纳入了两个补充部分。补充信息B提供了一个结构化的研究议程，确定了指导未来基于大语言模型的医疗健康AI智能体研究的关键研究问题、理论视角和方法论方向。补充信息C提供了利益相关者价值图谱，说明了特定AI智能体功能如何为关键利益相关者群体（包括开发者、临床医生、医院管理者、政策制定者和教育者）产生切实成果。

本综述系统概述了基于大语言模型的AI智能体在医疗健康领域的当前研究现状。我们回顾了其概念演变和核心特征，总结了其主要应用领域，包括诊断辅助、临床决策、医疗报告生成、健康管理、医学教育、药学服务和医院运营。我们进一步提出了一个涵盖技术性能和以人为本维度的多维评估框架，并概述了未来发展的七个关键方向。本研究位于人工智能与医疗健康的交叉点，有助于厘清AI智能体在医疗场景中不断演变的角色，并为其设计、实施和治理提供理论基础和实践指导。值得注意的是，本综述存在一定局限性。尽管我们努力全面涵盖相关文献，但该领域的快速发展性质可能因出版和索引的时滞而导致遗漏。未来研究可受益于基于案例的验证和实证调查，以进一步支持在现实医疗环境中开发安全、可控和可信的AI智能体。

方法

检索策略与筛选标准

为综述AI智能体在医疗健康领域的应用，并确保对医疗领域和智能体技术前沿的广泛覆盖，我们在Web of Science、PubMed和arXiv上进行了文献检索，重点关注过去五年发表的研究，特别是从2022年大语言模型出现到2025年2月期间的研究。检索结合了技术和领域特定关键词。技术术语包括"agent"、"agentic"、"large language model"、"foundation model"、"natural language processing"、"vision-language models"、"multimodal large language models"、"generative AI"和"GPT"。领域特定术语包括"healthcare"、"medicine"、"clinical"和"medical"。

在三个数据库中共检索到510篇文章。每篇文章由三名研究团队成员独立筛选，分歧由第四名成员解决。以下情况的研究被排除：（1）关于传统智能体的研究；（2）非英语和不完整的出版物；或（3）社论、评论、信函、观点、报纸文章、已发表的勘误或综述。经过这一过程，最终纳入81篇代表性研究进行综合。该过程的可视化总结见补充信息D。

数据分析

在分析阶段，我们对纳入的文献进行了主题分类，以系统呈现AI智能体的应用。分类依据文献中报告的主要应用和功能确定，包括辅助诊断、辅助决策、报告生成、健康管理、医学教育、用药管理和医院管理。我们注意到，这一分类是归纳性和内容驱动的，旨在总结当前的研究焦点和趋势，而非遵循固定的标准化框架。

数据可用性

分析数据已包含在本文中。由于本研究未生成或分析任何数据集，因此数据共享不适用于本文。

特别声明：智慧医疗网转载其他网站内容，出于传递更多信息而非盈利之目的，内容仅供参考。版权归原作者所有，若有侵权，请联系我们删除。

凡来源注明智慧医疗网的内容为智慧医疗网原创，转载需获授权。

上一篇：打破边界、融合共生：未来医疗，从来不是单一技术的独角戏下一篇：从精准成像到精准治疗——CT与放疗融合的技术逻辑

编辑推荐