近年来,越来越多专门面向医疗场景开发的临床人工智能工具开始进入真实医疗实践。这些系统通常宣称通过医学知识库增强、检索增强生成(RAG)或领域专门训练,能够比通用大语言模型提供更准确、更安全的医学建议。然而,这些商业系统大多缺乏独立第三方评估,其真实能力尚不明确。
研究人员对两款广泛应用的临床AI工具——OpenEvidence和UpToDate Expert AI进行了系统评测,并与三款前沿通用大语言模型GPT-5.2、Gemini 3.1 Pro和Claude Opus 4.6进行比较。评估体系包括500道医学知识题(MedQA)、500项临床一致性测试(HealthBench)以及100个来自真实临床环境的医生提问(RCQ)。在真实临床查询评估中,12名美国临床医生对模型输出进行了随机、盲法评价,共产生1800条人工标注结果。
结果显示,在医学知识掌握、临床推理质量以及真实临床应用场景三个维度中,通用大语言模型均显著优于专用临床AI工具。更令人意外的是,OpenEvidence和UpToDate Expert AI的整体表现与Google搜索中的AI Overview功能接近。研究表明,在当前阶段,通用基础模型已经具备超过多数专科临床AI系统的医学能力,强调了医疗AI在进入临床实践前开展独立、真实世界评估的重要性。

随着生成式人工智能的发展,医学领域涌现出大量专门面向医生和医疗机构设计的临床AI产品。这些系统通常建立在大型语言模型基础之上,并结合医学知识库、临床指南以及检索增强生成技术,希望提供比通用聊天机器人更专业的医学支持。 由于这些商业系统的底层架构、训练数据和优化流程并未公开,医疗机构和医生往往只能依赖厂商宣传来判断其价值和安全性。与此同时,GPT、Gemini和Claude等通用大语言模型正以极快速度迭代,其训练规模、知识覆盖范围和推理能力持续提升。研究人员因此提出一个关键问题:当前最先进的通用大语言模型是否已经超越专门设计的临床AI系统? 为了回答这一问题,研究团队构建了一套覆盖医学知识、临床判断以及真实医生工作场景的综合评测体系,希望从多个维度评估不同类型模型的实际医学能力。 方法 研究人员设计了三阶段评测框架。第一阶段使用500道美国执业医师考试风格的MedQA题目评估医学知识水平。第二阶段采用500个HealthBench任务评估模型与临床专家意见的一致性,该数据集涵盖准确性、完整性、沟通质量、不确定性处理和上下文理解等多个方面。第三阶段构建真实临床查询(RCQ)数据集,从纽约大学朗格尼医学中心真实医生在临床工作中向AI系统提出的问题中随机抽取100条匿名查询。 评测对象包括三款前沿通用大语言模型GPT-5.2、Gemini 3.1 Pro和Claude Opus 4.6,以及两款专用临床AI工具OpenEvidence和UpToDate Expert AI。在真实临床查询评测中,12名医生在不知道模型身份的情况下,对所有回答从临床正确性、完整性、安全性和表达清晰度四个维度进行评分,并额外标记是否存在有害建议或幻觉信息。最终形成1800条医生人工评价结果。 结果 构建覆盖知识、临床判断与真实场景的评测体系 研究首先建立了一套由公开基准测试和真实临床数据共同组成的评估框架。 与以往研究仅依赖标准化考试题不同,本研究同时纳入医生在实际诊疗过程中提出的问题,使评测更接近真实医疗环境。整个框架包括医学知识测试、专家一致性测试以及真实临床应用测试三个层面,从而能够较全面地评估模型的实际医学能力。 图1: 临床大语言模型评测框架。 通用大模型在医学知识测试中全面领先 研究人员首先比较模型在MedQA医学知识测试中的表现。结果显示,Gemini 3.1 Pro获得最高准确率,达到97.4%。GPT-5.2紧随其后,准确率为94.2%。Claude Opus 4.6达到90.2%。 相比之下,两款专用临床AI工具表现略逊。OpenEvidence准确率为89.6%,UpToDate Expert AI为88.4%。 统计分析显示,Gemini显著优于所有临床AI工具,而GPT-5.2同样显著超过OpenEvidence和UpToDate Expert AI。这说明即使没有专门医学训练,当前最先进的通用大模型已经拥有极强的医学知识储备和推理能力。 在临床专家一致性评估中差距进一步扩大 随后研究人员分析HealthBench测试结果。该评测重点考察模型回答与临床专家意见的一致程度,而不仅仅是知识正确性。结果显示,GPT-5.2获得最高得分,达到88.0分。Gemini和Claude分别获得79.3分和77.0分。 而OpenEvidence和UpToDate Expert AI仅分别获得62.6分和61.3分。进一步分析七个不同主题发现,GPT-5.2在所有类别中均排名第一或并列第一;而两款临床AI工具则在所有类别中均位于末位或并列末位。 这一结果表明,通用大模型不仅掌握医学知识,而且在复杂临床沟通和临床决策逻辑方面同样具有明显优势。 真实临床问题评测验证通用模型优势 研究人员认为,标准基准测试并不能完全反映真实医疗场景,因此构建了真实临床查询数据集。这些问题均来自医生在日常诊疗过程中向AI系统提出的问题,包括诊断思路、治疗策略、药物选择和复杂病例分析等内容。结果显示,三款通用大模型形成第一梯队。 Gemini获得最高综合评分3.62分(满分4分),GPT-5.2获得3.54分,Claude获得3.52分。第二梯队则包括OpenEvidence(3.24分)、UpToDate Expert AI(3.17分)以及Google AI Overview(3.27分)。 研究发现,所有显著差异均出现在两大梯队之间,而同一梯队内部模型之间不存在统计学差异。这说明前沿通用模型已经整体超越专门临床AI系统。 图2: 不同AI系统在医学知识、专家一致性和真实临床查询中的综合表现。 通用模型在完整性与表达能力方面优势最明显 研究人员进一步分析不同评价维度。结果显示,模型之间最大的差异出现在回答清晰度和完整性方面,而在临床正确性方面差异相对较小。 OpenEvidence的最低得分出现在表达清晰度维度,这说明其问题更多来自信息组织和沟通质量,而非纯粹知识缺陷。 在医生评价中,临床AI工具更容易出现内容不完整、重要信息遗漏以及结构混乱等问题。相比之下,Gemini、GPT和Claude通常能够提供更加系统且符合临床思维模式的回答。 临床AI工具拒答现象明显更多 研究还发现一个值得关注的问题。UpToDate Expert AI对19%的临床问题选择拒绝回答,这是所有模型中最高的比例。Google AI Overview的拒答率为6%。 相比之下,Gemini、GPT-5.2、Claude以及OpenEvidence的拒答率仅为1%至3%。 这意味着在真实工作场景中,医生更有可能从通用大模型获得实际可用的答案,而不是频繁收到拒答信息。 安全性方面各模型表现接近 尽管通用模型整体性能更强,但研究人员并未发现其安全性明显优于或劣于临床AI工具。有害回答比例在所有模型之间没有显著差异。幻觉信息出现率同样非常低,各模型均控制在约1%以内。 医生评审结果显示,没有任何模型在安全性方面显著优于其他模型。这说明当前领先通用模型在获得更强医学能力的同时,并未以牺牲安全性为代价。 讨论 本研究首次对商业化临床AI工具与当前最先进通用大语言模型进行了独立、系统且基于真实临床场景的比较。结果显示,无论是在医学知识、专家一致性还是医生真实工作环境中的问题回答能力方面,通用大语言模型均显著优于专用临床AI系统。 研究人员认为,一个可能原因在于当前临床AI工具普遍采用检索增强生成技术。虽然理论上能够引入专业知识库,但如果检索内容不相关或与模型推理过程整合不佳,反而可能降低整体表现。相比之下,前沿通用模型凭借更大规模训练数据、更强推理能力以及更完善的人类反馈对齐机制,在处理医学问题时展现出更高水平的知识调用和综合判断能力。 不过研究人员也指出,这并不意味着所有医学任务都应由通用模型完成。对于高度专科化领域、医院内部运营任务以及需要访问本地临床数据的场景,针对特定机构和专业领域定制的模型仍可能具有优势。未来的发展方向或许是医院专属大模型与前沿通用模型的结合,而不是简单依赖某一种模式。 此外,研究还强调了独立评测的重要性。许多行业基准测试可能天然有利于其开发者模型,而真实临床问题、盲法医生评审以及真实工作流程中的应用场景,能够更准确地反映模型的实际价值。随着生成式AI逐渐进入医疗机构、医生工作流以及患者端应用,建立严格、透明且独立的评估体系将成为医疗AI监管和部署的重要基础。 整理 | DrugOne团队 参考资料 Vishwanath, K., Alyakin, A., Ghosh, M. et al. General-purpose large language models outperform specialized clinical AI tools on medical benchmarks. Nat Med (2026). https://doi.org/10.1038/s41591-026-04431-5 特别声明:智慧医疗网转载其他网站内容,出于传递更多信息而非盈利之目的,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。 凡来源注明智慧医疗网的内容为智慧医疗网原创,转载需获授权。
