系统构建了我国医疗大模型回顾性评测技术框架,明确评测流程、指标体系与伦理要求,为模型研发、评测与临床应用提供统一、规范、可复用的技术指引
《共识》制订过程严格遵循《世界卫生组织指南制订手册》《中国制订/修订临床诊疗指南的指导原则(2022版)》等标准方法学要求,并在国际实践指南注册平台PREPARE完成注册(编号 PREPARE-2025CN503),实现了制订流程的科学化、透明化与规范化。来自全国三甲医院、科研机构与人工智能企业的数十位专家参与了问题遴选、证据评估、推荐意见制订和Delphi共识投票,全程经由专家委员会与指导委员会多轮论证,最终形成6条核心推荐意见,均获得超过80%的专家同意并达成共识。
《共识》围绕医疗场景下大模型的“回顾性评测”开展系统阐述,即在模型训练完成、参数固定后,基于真实或模拟真实的临床数据对模型的医学适配性与安全性进行验证。《共识》从评测流程、指标体系、团队建设、数据集设计、反馈更新机制和报告规范等方面构建了完整评测框架。其中,评测流程强调科学客观、真实全面与伦理合规;指标体系涵盖结构化与生成式任务的定量与定性评估;团队建设强调医学专家、工程技术人员、伦理与法律专家的协同;数据集构建突出临床真实性、全面代表性、公正性及动态扩展能力;反馈与更新机制确保评测体系的长期迭代;报告模板则规范评测结果披露与版本管理。
值得关注的是,基于国家卫生健康委办公厅、国家中医药局综合司、国家疾控局综合司联合发布的《卫生健康行业人工智能应用场景参考指引》,《共识》明确提出医疗大模型评测的六大核心能力维度,包括医疗知识问答、医疗复杂语言理解、医疗诊断与治疗推荐、医疗专业文书生成、医疗多轮对话以及医疗多模态交互,从而为不同类型模型的评测提供了清晰的应用场景定位和指标选择依据。同时,《共识》围绕患者隐私保护、数据脱敏、算法公平性、输出安全性等关键问题提出严格要求,有助于推动医疗人工智能安全、可控、可解释的发展路径。
以下为全文
引用本文
国家新闻出版署医学期刊知识挖掘与服务重点实验室. 医疗场景下大语言模型应用效果回顾性评测专家共识(2025版)[J]. 数字医学与健康,2025, 网络预发表.DOI:10.3760/cma.j.cn101909-20250924-00177
通信作者 王振常,首都医科大学附属北京友谊医院,北京100050 Email:cjrwzhch@vip.163.com; 董家鸿,清华大学附属北京清华长庚医院,北京102218 Email:dongjiahong@mail.tsinghua.edu.cn; 葛均波,复旦大学附属中山医院,上海 200032 Email:ge.junbo@zshospital.sh.cn; 魏均民,中华医学会杂志社 医学期刊知识挖掘与知识服务重点实验室,北京100052 Email:weijunmin@cmaph.org
◆ ◆ ◆
大语言模型(large language model,LLMs)基于海量文本数据训练,已在自然语言理解与生成方面展现出强大能力,其在医疗场景中的应用涵盖疾病筛查、辅助诊断、健康管理等多个环节,成为推动智能医疗发展的重要力量。近年来,我国积极推动人工智能(artificial intelligence,AI)与医疗健康的融合,政策端鼓励企业突破医疗大模型、多模态数据融合等关键技术,应用端加速向健康管理、精准医疗等场景延伸,逐步构建起覆盖预防、诊断、治疗、康复的全周期智能医疗服务体系。然而,随着LLMs在医疗领域的广泛应用,相关评测标准缺失、方法不统一的问题日益突出。为此,《医疗场景下大语言模型应用效果回顾性评测专家共识(2025版)》围绕医疗场景下LLMs的回顾性评测构建了系统化评测框架,提出了科学的评测指标体系、标准与流程,旨在为模型评测机构、提供方与应用方提供清晰、可操作的指导规范。该共识有助于统一评测方法,提升评测的科学性,推动LLMs在医疗场景中的安全、有效应用,助力AI赋能医疗,实现高质量发展。
◆ ◆ ◆
大语言模型指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义,通过在庞大的数据集上进行训练来提供有关各种主题的深厚知识和语言生产。其核心思想是通过大规模的无监督训练学习自然语言的模式和结构,在一定程度上模拟人类的语言认知和生成过程。医疗场景下的LLMs应用是指将LLMs应用于医疗领域,在疾病筛查、辅助诊断、健康管理等医疗环节中发挥辅助决策作用。 在医疗场景中,LLMs的技术研发和实际应用均已步入加速发展阶段。《医疗场景下大语言模型应用效果回顾性评测专家共识(2025版)》(简称本共识)在遵循标准化文件的结构和起草规则下,通过科学构建评测指标体系、评测标准、评测流程等,为LLMs在医疗场景下的应用效果评测提供科学化、具体化、系统化的指导,规范LLMs评测方法和标准,促进人工智能产业高质量发展的标准体系加快形成。本共识由国家新闻出版署医学期刊知识挖掘与服务重点实验室、《数字医学与健康》编辑委员会、《智慧医学(英文)》编辑委员会、中华医学会杂志社指南与标准研究中心、医疗人工智能研究及应用安徽省重点实验室联合发起,兰州大学健康数据科学研究院、世界卫生组织指南实施与知识转化合作中心提供方法学支持。 本共识定位于LLMs应用前的评测指导工具,强调在LLMs研发阶段末期以及落地前,组织医学、计算机学、伦理学、法学等相关专业人员开展多维度、回顾性的效果评测,以实现LLMs落地前的全面把关与科学指导,旨在为LLMs在医疗场景中的应用效果开展系统性、回顾性评测提供科学、客观且可操作的指导依据。本共识的“回顾性评测”指在LLMs已经完成训练并固定参数的基础上,将其部署到本地环境中,通过实际应用场景的测试数据,系统性地评估模型的性能。这种评测不涉及对模型本身的修改,而是聚焦验证其现有能力在目标场景中的适用性。 本共识编写目的具体包括:(1)科学评测。构建标准化、结构化的评测指标体系,确保LLMs评测的准确性、可重复性与横向可比性。(2)安全保障。识别LLMs在医疗场景中的潜在风险与使用边界,预防落地后可能带来的误诊、误治或信息误导。(3)有效筛选与推广。支持高性能、可信赖的LLMs在进入实际应用前得到充分验证,提升技术成熟度与适配性。(4)质量引导。为LLMs研发提供优化方向,推动其在医学知识整合、任务适配与临床验证等方面持续提升。(5)政策支撑。为LLMs监管和政策制订提供评测框架与技术依据,助力制订统一、规范的行业标准与准入门槛。 (二)适用对象 本共识适用于开展LLMs医疗应用效果回顾性评测的相关机构和人员,涵盖模型评测方、模型提供方以及医疗场景中负责模型部署与集成的应用方。 1.模型评测方:如第三方医学AI评测中心、科研院所、行业标准制订组织等,可依据本共识建立规范化的评测流程、数据体系与评价模型,确保评测结果具备科学性与权威性。 2.模型提供方:包括AI企业、医疗科技公司、科研单位等模型研发主体,可依据本共识指导优化训练策略、完善内测评测流程,提升模型的医学适配性与临床应用潜力。 3.模型应用方:如医院信息中心、医疗信息化公司、智能医疗平台开发商等,在模型部署前可依据本共识开展适配性评测与风险预判,确保模型在不同医疗场景下的稳定性与安全性。 本共识的制订严格遵循《世界卫生组织指南制订手册》、《中国制订/修订临床诊疗指南的指导原则(2022版)》,并参考卫生保健实践指南的报告规范(Reporting Items for Practice Guidelines in Healthcare)进行撰写,重点关注医疗场景下LLMs应用效果的回顾性评测指标体系、评测标准、评测流程,并在国际实践指南注册平台(practice guideline registration for transparency,PREPARE)进行注册,注册号为PREPARE-2025CN503。 (二)共识形成过程 本共识依据循证医学原则制订,采用系统化、标准化的流程形成共识建议,以确保内容的科学性与权威性。临床问题的遴选和确定,是以问卷调查和文献检索等形式收集问题和专家意见,按照S(sample)、PI(phenomenon of interest)、D(design)、E(evaluation)、R(research type)原则构建问题和指标总条目。由共识制订专家组指导委员会拟定初步的问题和指标,邀请共识制订专家组召开问题构建和指标遴选专项会议,对所有问题的重要程度进行评价。通过两轮调查问卷以及对相关共识的调查,收集并确定需要在本共识中解决的问题。采用Likert 5级评分法进行重要性评分(5分制:5分为必须纳入的强烈推荐项,1分为不纳入的强烈不推荐项)。平均分≥4分的为关键问题,必须在共识中产生推荐意见;平均分介于3~4分的为一般重要问题,是否形成推荐意见由共识会议讨论决定;平均分≤3分的为非关键问题,在共识中不产生推荐意见。本共识最终纳入的问题将基于问卷调查及专家评分结果。对于每个关键问题,秘书组的两名研究人员独立地从纳入的文献中提取信息,形成证据摘要,并将其提交指导委员会审查。指导委员会和秘书组根据现有证据为每个问题起草初步建议和理由。采用改良的德尔菲(Delphi)方法,通过问卷调查就推荐意见达成共识。 本共识所采用的文献检索数据库包括PubMed、Embase、Cochrane Library、Scopus、中国知网(CNKI)、万方全文数据库、中华医学期刊全文数据库,以及与医疗场景下LLMs相关的学会/协会网站文件,检索时间范围为各数据库/网站建立起至2025年5月,发表语言限定为中英文。最后采用相应的工具评价纳入研究的质量并确定文献证据。共识制订专家组成员基于指南、共识、系统评价、Meta分析、随机对照研究的证据以及相关的指引、规范和通知,初拟了共识意见和证据与解释。执笔专家整合共识制订专家组文件,撰写共识全文。秘书组整合不同问题的共识意见,通过线上会议与共识制订专家组成员开展共12次讨论与修改。2025年8月通过邮件形式在共识制订专家组中进行1轮Delphi调查,调查人数为35人,问卷有效回收率为100%。调查问卷的内容设计由秘书组成员完成,经共识制订专家组成员审核通过后发放。问卷内容主要包括对每条推荐意见的评分以及可自由填写的意见和建议区域。针对每一条推荐意见,专家采用同意、不同意、不确定来进行评定。本共识设定:针对单条推荐意见,勾选同意的专家超过80%,则为该条推荐意见达成共识。本共识共凝练出6条推荐意见,均达成共识。专家推荐程度以“共识度”标注,共识度=(勾选同意的专家人数/总参评专家人数)×100%。 (一)问题1:如何构建科学、客观、全面且符合伦理的医疗场景下LLMs应用效果回顾性评测流程? 推荐意见1:评测流程应坚持科学性、客观性、全面性、伦理合规性。(1)科学性方面,评测指标应基于循证医学证据评价方式,效果评价采用符合循证医学要求的设计方法以保障结果的可重复性和独立性,并建立动态证据更新机制以适应医学和技术的发展。(2)客观性方面,需构建具有代表性的多病种、多机构、多场景数据集,采用定量与定性相结合的方法进行双盲评测,确保评价结果公正、透明。(3)全面性方面,评测内容应覆盖多类医疗应用场景与多学科临床专业,提升评测结果的泛化性与指导价值。(4)伦理合规性方面,需严格遵循医学伦理准则,充分保护患者隐私与数据安全,确保所有评测数据的收集、使用均获得知情同意。同时,要规避潜在的伦理风险,如算法偏见可能导致的不公平医疗资源分配等,建立伦理审查机制,对评测全过程进行监督与评估,保障评测活动符合法律法规和社会伦理规范。推荐评测流程见图1。[共识度:100%(35/35)] 图1 医疗场景下大语言模型应用效果回顾性评测流程 在医疗LLMs评测指标体系的构建过程中,遵循科学、客观、全面、伦理合规的原则至关重要,有助于确保评测结果的准确性、可靠性与实用性,为医疗决策、质量提升及技术创新提供坚实支撑。 1.科学性:科学性是医疗LLMs评测指标体系构建的基石。基于临床循证证据、权威医学指南与真实世界数据确定评测指标,能使评测内容紧密贴合医疗实践。医学指南融合众多研究成果与专家共识,真实世界数据反映实际医疗复杂情况,二者结合可避免评测脱离实际,为医疗LLMs评测与改进提供科学指引。重要决策证据需遵循双盲、随机等科学方法,避免主观因素干扰,确保评测结果公正客观。第三方机构独立验证可增强评测结果的可信度与权威性。随着医学与LLMs技术快速发展,建立动态迭代机制,依据新发现、新疗法及新进展定期修订评测标准,能确保其先进性与适用性,紧跟时代步伐,支持医疗行业创新发展。 2.客观性:客观性原则要求评测过程与结果不受主观因素影响,确保评测结果真实反映实际情况。测试数据应全面覆盖多样化的医疗场景,涵盖不同疾病类型、不同层级医疗机构以及多样化的应用场景。合理使用多种抽样方法,广泛收集数据样本使其满足统计学意义规模,避免因数据样本偏差导致评测结果失真,确保评测结果能够真实反映不同医疗场景下的实际情况,为全面性的医疗LLMs评测提供可靠依据。评测结果采用定量与定性相结合的方式,核心指标应进行量化处理,如诊断结果准确率、F1值等,其能够直观、准确地反映评测对象的性能;同时由临床专家进行主观定性评测,如准确性、完整性、实用性等方面。评测过程需采用双盲标注评测,以最大程度避免主观倾向对评测结果的影响,确保评测结果的客观性与公正性。参与评测的机构或人员需如实声明利益关系,并接受第三方机构的严格监督。通过这一机制,能够有效防止因利益冲突导致评测结果出现偏差,保障评测工作的独立性与公正性,维护评测结果的公信力。 3.全面性:全面性原则要求评测指标体系能够涵盖医疗领域的各个方面,确保评测工作的完整性与系统性。《卫生健康行业人工智能应用场景参考指引》指出,医学AI应区分不同应用场景,全面覆盖医疗服务管理、基层公共卫生服务、健康产业发展、医学教学科研等多个领域。不同场景具有不同的特点与需求,通过全面覆盖,确保评测工作能够准确反映各领域的实际情况,为各领域的改进与发展提供针对性建议。不同科室在疾病诊断、治疗及管理方面具有独特性,针对不同学科领域或专科疾病进行评测,如儿科、呼吸内科、心血管内科等,有助于发现各科室存在的问题,推动科室专业化发展。此外,评测流程还需覆盖可能涉及的其他维度,确保评测工作的全面性,为医疗LLMs行业的整体发展提供全方位的评测服务与支持。 4.伦理合规性:伦理合规性原则要求评测指标体系将医学伦理规范与法律法规置于核心地位,确保AI在医疗领域的应用始终遵循正确的价值导向。首先,要关注患者隐私与数据安全问题。评测需详尽考察数据全生命周期的合规性,包括收集环节是否获得充分、有效的知情同意,存储与传输环节是否采用强加密、匿名化等先进技术手段,以及使用环节是否有严格的权限管理和访问审计机制,严防数据泄露与滥用。其次,要关注算法偏见带来的伦理风险。评测应包含对算法公平性的深度检验,识别其是否存在因训练数据偏差、模型设计缺陷等导致对特定人群(如特定性别、民族、种族、年龄、地域或社会经济地位患者)的诊断、治疗建议或资源分配产生系统性歧视问题。因此,评测应建立贯穿始终的伦理审查与监督机制,对评测方案设计、数据获取方式、算法评估过程及结果应用等关键环节进行独立、严格的伦理评估与持续监督,确保评测符合法律法规和行业规范的要求。 5.评测流程:为确保医疗LLMs评测工作的科学、规范与有效,特明确评测流程如下。(1)评测申请。在评审前由具有明确评测意向的机构或个人提出书面申请。评审申请中必须写明的内容包括:申请单位主体信息、模型名称及版本号、模型应用类型、模型开发时间、核心技术架构、模型部署形式、预期应用场景、合规和伦理审查材料、评测需求与范围。(2)需求分析。全面剖析待评测模型的应用场景,深入了解其在不同医疗环境、患者群体及业务流程中的潜在运用情况。明确评测重点与方向,为后续评测工作奠定坚实基础,确保评测能够精准反映待评测模型在真实医疗场景中的表现。(3)方案设计。针对待评测模型及评测场景精心设计评测方案。具体涵盖:①组建权威评测专家组,需具备专业背景与丰富经验;②明确评测指标,使其紧密贴合评测目标与应用场景;③制订科学的评测标准,保障评测工作的公正性与客观性;④构建全面且具代表性的评测数据集;⑤搭建适配的测试环境及测试工具,为评测提供可靠软硬件支持。(4)组织评测。依据评测方案,组织评测专家对评测数据进行双盲标注,避免主观因素干扰,确保标注结果的准确性与可靠性。(5)结果分析。汇总测试集标注结果,统计相关评测指标结果,从不同维度深入对比,在完成评测汇总和结果分析后,组织专家进行复审,最终出具专业评测报告。 (二)问题2:医疗场景下LLMs应用效果回顾性评测的指标有哪些? 推荐意见2:建议将模型评测指标根据不同场景适配性地划分为定量指标与定性指标两类。定量指标主要用于量化模型在自然语言处理任务中的表现,推荐优先采用准确率、召回率和F1值评测结构化任务(如文本分类、信息抽取),并采用BLEU与ROUGE分数衡量文本生成任务中的语言质量与信息覆盖度。定性指标则用于评测模型输出的医学适应性与安全性,建议采用MOS机制,由评测专家从准确性、完整性、安全性、实用性和专业性五个维度进行5分制评分,并计算均值作为评测依据。同时,可引入优秀率(MOS≥4)、不良回复率(MOS=1或含风险内容)及胜率等指标,进一步量化模型在高质量输出和风险控制方面的综合表现。此外,建议纳入资源消耗、并发能力等性能指标以评估模型在医疗场景下的运行效率,确保其在实际应用中的响应速度与资源适配性。[共识度:100%(35/35)] 2024年11月14日,国家卫生健康委员会、国家中医药管理局、国家疾病预防控制局三部门联合印发《卫生健康行业人工智能应用场景参考指引》。该指引从“人工智能+医疗服务管理”“人工智能+基层公共卫生服务”“人工智能+健康产业发展”和“人工智能+医学教学科研”四大领域,给出了84个应用场景,希望以此推进卫生健康行业“人工智能+”应用创新发展。具体应用场景见图2。 图2 卫生健康行业人工智能应用场景参考指引 本共识面向LLMs在医疗场景中的应用进行评测,故选择《卫生健康行业人工智能应用场景参考指引》中与共识制订目的强相关的“医疗服务”“医药服务”“中医药管理服务”等8个模块51个应用场景,并将其聚焦为6个核心评测点: 1.医疗知识问答:能够提供医疗领域的知识查询与解释,包括疾病诊疗、用药指导、医保政策、健康科普、医学教育题库及文献问答,满足从患者到专业人员的多层次知识需求。覆盖药品问答、健康教育等场景。 2.医疗复杂语言理解:能够深度解析医疗文本语义与规则,实现对医学术语、专业文书、政策法规的精准理解与结构化提取,满足医疗行业在问题解决方面的严格要求。覆盖病历质控、医保核算/风控、科研文献分析、处方审核等场景。 3.医疗诊断治疗推荐:能够模拟临床决策全流程,支持影像/病理/检验辅助诊断、手术规划导航、用药推荐、慢病管理及中医辨证等,辅助医生临床决策,提高整体医疗服务能力,覆盖专病决策、分诊导诊、多学科会诊等场景。 4.医疗专业文书生成:能够自动化生成医疗全场景文档,包括门诊病历、入院记录、出院小结等,提高医疗工作效率,减轻医生工作负担。覆盖病历生成、健康档案、科研文书等场景。 5.医疗多轮对话交互:聚焦自然语言单模态,核心在通过多轮问答实现信息获取,强调上下文理解与个性化,场景偏向客服、管理等对话场景。覆盖医保客服、健康管理交互、医院客服、医学培训等场景。 6.医疗多模态对话交互:能够对文本、语音、图像等多类型输入进行识别与理解,并生成符合医疗规范的多模态输出,满足医疗行业多模态交互需求及技术辅助。覆盖影像质控、手术辅助、中药鉴别等场景。 为保障评测结果科学严谨且贴合医疗场景实际表现,依据GB/T 45288.2—2025《人工智能 大模型 第2部分 评测指标与方法》要求,在设计评测指标时,紧密结合医疗场景的实际问题,同时兼顾不同任务类型的核心要求、相关数据集的固有特性,并重点针对不同场景下模型输出的回复形式进行设计。LLMs在医疗场景下推荐的评测指标见表1。 具体到不同应用场景中,从核心评测点对应的评测指标设定,到评测实施的全流程细节,在表2中提供了详细的示例,可作为实操参考。 以上提供了医疗场景下LLMs应用效果的评测指标。然而,模型的综合价值不仅在于其能力的强弱,还在于将这些能力转化为实际服务的效率与成本。因此,在关注其“效果”的同时,我们必须也关注决定其落地可行性的“性能”维度。LLMs的性能评测包含但不限于以下维度:资源消耗(包括算力要求、显存占用、功耗),吞吐量及延迟(包括吐字速率、请求吞吐量、响应延迟),并发能力和可扩展性(包括最大并发路数和增加计算资源时带来模型性能提升)。



(三)问题3:如何构建符合多领域协同的医疗场景下LLMs应用效果评测团队?
推荐意见3:建议构建具备多学科协同能力、医学专业背景与评测素养的标准化评测团队。团队应由高年资医学专家(担任医疗LLMs评测培训导师)、计算机学专家、伦理学专家、统计学专家及法学专家共同组成,以保障评测工作的标准化和专业性。评测人员应覆盖多专科、多层级的医生及医院,并通过系统培训与实操验证提升评测一致性;培训导师应具备丰富的临床经验,负责制订评测流程与标准;计算机学专家则负责数据处理、平台支持及结果分析,确保评测流程技术可行与临床契合;伦理学专家负责确保评测遵循现有伦理规范,避免数据偏见、算法偏见及其他伦理风险;法学专家负责保障评测全流程符合国内外相关法律法规,提供合规支持与风险把控。团队内部应建立规范的人岗匹配与动态管理机制,包括分层培训、进阶考核、任务分配与绩效淘汰制度,以实现稳定、高效的评测协作体系,提升评测质量与结果可信度。[共识度:91.4%(32/35)] 跨学科团队的构建至关重要,专业医生凭借深厚的医学知识和临床经验,能精准把控诊疗逻辑、判断医疗决策的合理性,确保LLMs的应用符合临床规范;有经验的工程师则可从技术底层优化模型性能,解决数据处理、算法适配等问题,为测评流程的稳定性和效率提供保障。该团队模式能够有效整合不同领域的知识,提高标注质量。团队应通过标准化培训与考核机制强化跨学科协作能力,选拔具备专业深度与沟通能力的成员,为LLMs的评测提供可靠人才保障。 1.培训导师的选拔应跨越不同科室、不同场景,以确保其能力全面覆盖:根据不同应用场景、专科方向与任务难度,选取具备相应背景与职称的专家医生担任培训导师,确保医学能力与任务类型的高度匹配。培训导师还应具有地域代表性,避免地域差异对评测结果产生偏倚。培训导师资质建议为副主任医师及以上,具备丰富的临床与教学经验,能够深入理解各类医疗任务并提供准确指导。 2.参评医师应从专业资质及实践能力多维度出发综合考虑,并通过小样本交叉测评和场景测评进一步提高结果一致性和稳定性:根据医学场景任务的不同,需要筛选合适的医生参与评测,应根据不同应用场景、不同专科、不同难度等,选拔对应背景、职称的专科医师。(1)参评医师的资质。①从专业资质维度,参评医师需涵盖住院医师、主治医师、副主任医师及主任医师,覆盖临床诊疗、医学影像、检验医学等多个科室;②从实践能力维度,参评医师需具备测评相关的实践经验,掌握基础医学统计学方法,具备医疗数据解析与专业测评报告撰写能力。(2)参评医师的遴选流程。①采用小样本交叉测评法,对候选医师的医学知识储备及临床问题理解能力进行量化评测,建立基础能力筛选标准;②基于多任务场景的大样本测评数据集,开展标准化测评实践,通过组内一致性检验优化测评人员对评分细则的认识,确保评测标准的同质化执行。 3.计算机学专家(如数据工程师和计算机工程师)的资质要求与职能作用:除医学专业人员外,具备数据处理分析以及机器学习知识的数据工程师和计算机工程师参与评测团队,可以从多个角度保证所标注的数据同时满足计算机思考决策方式和临床专业性及实用性,通过专业医生、数据工程师和计算机工程师的协作,形成评测工作的跨学科框架。 计算机学专家的资质要求:需持有数据工程师或计算机工程师职业资质认证,或拥有5年以上相关领域从业经验,且须通过专家组组织的专项能力测试,方可获得参评资格。其职责包括:(1)保障评测平台的稳定性。①在标注平台中,开发智能辅助工具能够有效提升测评效率,这一点已被多方所验证。这些工具具备自动填充、智能提示以及错误预警等多种功能,它们依托于自然语言处理和机器学习技术,可显著减少人工标注过程中的重复性劳动,降低错误发生率,进而提高整体的数据质量。②构建完善的数据安全防护体系,对医疗标注数据进行加密存储与传输,同时设置严格的权限管理机制,确保不同角色的人员只能访问和操作其权限范围内的数据,以上措施可有效防止数据泄露和误操作。(2)保障评测数据的均衡性。数据工程师需具备良好的数据分析能力,以确保在数据标注过程中实现数据的均衡分布;同时,要严格把控数据质量,提供标准化的术语库,从而有效减少标注过程中的歧义,切实保障标注数据的一致性与合理性。(3)保障评测结果分析的专业性。计算机工程师具备自然语言处理和机器学习专业知识,能够评测LLMs的技术性能,如准确率、召回率、效率等。此外,他们还可以分析LLMs存在的潜在偏差和局限性。 4.伦理学专家的资质要求与职能作用:在LLMs测评团队中,伦理学专家需具有应用伦理学、生命伦理学、医学伦理学或科技哲学专业硕士及以上学历,具备3年以上AI伦理、数据伦理和科研伦理的研究或从业经验,具备3年以上的科研伦理审查经验,理解LLMs的工作原理,了解训练数据、微调、提示、参数和输出,理解训练数据如何被获取、清理及可能的数据偏见。其核心作用体现在4个方面:(1)结合现有AI原则和治理框架,明确适合目标场景的伦理评测规则,使评测遵循现有伦理规范;(2)数据伦理评价,对训练所用数据的获取、清洗进行评估,并评估数据偏见风险;(3)对算法模型进行伦理评估,识别算法中存在的伦理问题,包括算法的鲁棒性、可解释性、透明性、公平性等,并评估价值链上主体对算法的影响;(4)与LLMs评测团队中成员协作,针对LLMs中存在的伦理问题和相关风险提出完善建议。 5.法学专家的资质要求与职能作用:在LLMs测评团队中,法学专家需拥有法学专业硕士及以上学历,具备3年以上数据安全、个人信息保护或AI合规领域的从业经验,熟悉国内外相关法规,具备医疗或AI领域交叉学科知识储备,能较为准确地理解LLMs测评中的临床数据特性与技术逻辑。其核心作用体现在3个方面:(1)构建合规框架,结合LLMs测评场景(如医疗数据处理、多模态信息交互等),制订涵盖数据采集、脱敏、存储、模型输出验证全流程的合规标准,确保测评活动符合法律法规要求;(2)动态风险管控,针对测评中可能出现的敏感信息泄露、模型输出合规性争议等风险,提供实时法律评估与应对方案,例如审核医疗数据去标识化效果是否满足“较难识别特定个体”的法定要求;(3)合规能力建设,通过专项培训提升团队成员的法律意识,明确测评各环节的法律边界,同时对测评结果的合法性进行确认,保障LLMs在医疗领域的应用符合法律规范。 6.评测团队需制订明确的标注规范,并进行统一培训:评测团队在不同医疗任务场景下需要有明确的评测标注规范。评测标注规范由医疗LLMs评测培训导师制订,优秀的评测标注规范应当清晰、详细、可操作,并明确标注范围、标准、方法及注意事项等内容。评测标注规范应包含各种可能遇到的情况和解决方案,确保团队成员在标注过程中有统一的标准可循。医疗LLMs评测培训导师需结合不同任务的评分规范和实操中的问题,系统梳理培训材料,包含任务标注案例、注意事项等;医学专家负责提供专业的医学知识,协同筛选,确保标注的准确性;数据科学家负责设计标注方案和质控流程;标注工程师则负责具体的数据标注工作。这种团队模式已被证明能够有效整合不同领域的知识,提高标注质量。 7.设置评测人员准入考核机制,建立数据标注质量监控制度:(1)评测人员准入考核方法。针对不同医疗LLMs能力维度与应用场景,均设置标准化试评环节。评测人员需完成规定数据量的试评任务,其标注结果与标准答案的误差率控制在3%以内,且组内一致性系数达到0.85以上,经专家组复核确认后,方可获得正式参评资格。该机制通过量化考核标准,确保评测人员具备稳定且专业的评测能力。(2)数据标注质量监控。团队中需要有专门的医疗专业人员作为质控人员进行标注结果的质控,负责检查标注质量,发现并纠正错误标注。质控人员需要具备专业的医学知识和丰富的标注经验,能够制订合理的质控标准和流程。同时需要定期对标注数据进行抽查和评测,及时发现和纠正错误标注。定期结合历史评分准确率和质控反馈设定淘汰门槛,对评测人员进行复训与考核。利用统计分析方法,如计算标注一致性系数来评测标注质量,并根据评测结果改进标注流程和指南。
(四)问题4:如何设计兼顾代表性与可扩展性的医疗场景下LLMs应用效果评测数据集?
推荐意见4:评测数据集的设计需注重科学性、动态性、合规性,需制订标准化的数据构建流程,并建立可扩展与可持续更新的机制,以确保医疗LLMs应用效果评测具有临床真实性、全面代表性、公正性。(1)评测数据集的科学性设计需遵循三个原则:①临床真实性,基于真实诊疗数据,覆盖医疗全流程及决策冲突情境;②全面代表性,从疾病、人群、医疗机构等多维度广泛覆盖,动态引入关键维度;③公正性,纳入弱势群体、特殊人群及特定领域数据。(2)评测数据集需建立动态扩展机制:采用模块化设计,按场景、疾病、任务等划分独立单元,确保结构、格式、存储规范;建立标准化版本控制体系,根据模型迭代、政策更新等情形,及时更新数据并保留历史版本,增强评测连续性与可解释性。(3)数据合规要求:评测数据集若使用真实医疗数据,须严格遵守法律法规,对姓名、住址等敏感信息彻底脱敏匿名,确保无识别性、不属于个人信息。建议引入脱敏规范与审计机制,保障评测全流程合法、合规、可追溯。[共识度:100%(35/35)] 1.评测数据集的设计原则:评测数据集在设计时应保证临床真实性、全面代表性和公正性三个设计原则。 (1)临床真实性。评测数据集采用真实世界医疗场景数据,覆盖诊前-诊中-诊后就医全流程数据,且包含典型临床决策冲突场景。同时数据要求来自临床真实情况,如住院电子病历、门诊病历、体检报告单等。评测数据集的正确性将由专家组进行复核确认。 (2)全面代表性。①数据类型:根据医疗场景的不同,测试集需对应覆盖测试场景下所涉及的数据类型。普遍的医疗场景下应考虑的临床数据类型包括导医导诊对话数据、门诊病历数据、检查检验报告单、复杂住院病历、医疗对话、诊疗计划文档、影像数据及医学指南文献类文章等。以上数据需满足对LLMs应用场景的覆盖,包括医疗海量知识问答、医疗复杂语言理解、医疗诊断治疗推荐、医疗专业文书生成、医疗多轮对话交互、医疗多模对话交互。其中,医学指南文献类文章作为权威医学知识的载体,可有效支撑模型对临床指南的深度解析与循证决策能力,进一步强化数据类型的专业性和全面性。②疾病维度:确保数据集覆盖尽可能多的疾病类型和临床表现,从而验证LLMs在不同医学领域的泛化能力。例如,包括肿瘤、心血管疾病、传染病等不同科室/不同类别的病例,可从国际疾病分类(ICD)中按不同层级分层抽样,根据疾病的不同程度,作出符合患者病情的诊断;同时需要根据国家发布的两批罕见病列表,纳入部分罕见病,保证模型复杂病案诊断鉴别能力。此外,还需纳入一定比例的阴性样本(如无明确器质性病变的功能性症状病例、非目标疾病的相似症状病例等),以此验证模型在区分疾病与非疾病状态、鉴别相似症状下不同病因的能力,减少假阳性诊断,进一步提升模型对复杂临床场景的适配性。③人群维度:医学数据往往存在偏差,如某些疾病可能在特定人群中更为普遍。如果评测数据集未能反映真实世界的人群分布,LLMs可能会学习并放大这些偏差,导致对某些群体做出不准确或不公平的诊断。因此,选择评测数据时应注意平衡患者人群特征,包括平衡不同年龄段、不同性别、不同地域等。④医疗机构维度:覆盖基层医院、二级医院、三级医院等不同层级,根据实际情况按照比例进行模拟,避免模型在基层医疗机构(如社区医院、乡镇卫生院等)应用中的准确性和有效性受到影响,使基层患者不能获得合适的医疗AI决策。结合实际评测对象、评测场景的差异性,还应考虑从其他特性维度进行数据集覆盖。 (3)公正性。评测数据应该保持公正,在保障覆盖绝大部分真实世界数据的同时,适当设计弱势群体、特殊人群、特殊领域的数据集。 2.测试集的形式:应支持动态扩展,便于数据持续更新。 (1)模块化数据结构。将数据集拆分为独立模块,支持按模块添加,通过采用统一的数据格式和存储规范,确保新数据模块与现有模块无缝集成,而无需重构整个数据集。这对于不断发展的领域(如医疗健康)至关重要,因为新的数据类型、特征或患者群体可能需要定期添加到评测数据集中。 (2)版本控制。评测数据集需要明确版本,并制订对应的更新策略,如当模型技术迭代明显、医疗政策调整、医疗技术更新等重大变化时,适时对测试集进行更新;此外,还应支持历史版本回溯功能,这有益于问题排查、长期分析及版本合规性检验。 3.测试集的伦理与安全:需对敏感信息进行脱敏处理、满足数据安全并遵循伦理原则。评测数据集采用真实世界诊疗数据时,需对数据中的姓名、住址、身份标识、就诊号等敏感信息进行脱敏处理,通过完整的匿名化与去标识化操作,确保数据不再构成个人信息。严格遵守《中华人民共和国个人信息保护法》《中华人民共和国数据安全法》等国内法规,同时参考欧盟的《通用数据保护条例》、AI法案和美国的健康保险流通与责任法案等国外法规,全面保障数据安全。在健康医疗大数据应用场景下,健康医疗个人信息控制者开展个人信息处理活动,应遵循合法、正当、必要与诚信原则,目的原则,公开透明原则,质量原则,以及责任原则。在实际操作中应注意以下几点: (1)数据隐私性。在获取数据内容上,因为医疗数据包含大量敏感信息,如患者的姓名、身份证号、联系方式、健康状况、疾病史、详细出生日期等,所以必须采取严格的隐私保护措施。在不影响数据使用价值的前提下,对数据进行匿名化和去标识化处理,可降低数据被识别和泄露的风险。在测评数据应用中,针对患者姓名、身份证号、联系方式等与诊断诊疗无关的个人敏感信息,需通过规范化脱敏处理以平衡数据利用与隐私保护,具体采用以下三种核心方式:①以伪数据或标准化占位符替换此类信息,以阻断真实身份关联;②将精准个人信息(如具体年龄、居住地址)泛化为年龄区间、城市级别等宽泛类别,弱化个体识别度;③对数字类个人信息(如医保账号、病案号)采用加密技术处理,在保证信息安全的情况下保留唯一标识。数据脱敏后,还需通过检测流程确认其是否可以识别个体或是否可以关联回溯,避免存在脱敏不彻底导致隐私泄露的风险。 (2)数据安全性。在数据获取途径上,基于数据安全性要求,需明确谁可以使用以及可以披露哪些受保护的健康信息。患者有权查看、获取其医疗记录的副本,并要求更正不准确的信息。医疗机构必须告知患者其隐私权,并获得患者的书面授权才能披露某些信息。比如,医疗科技公司应建立访问控制机制,限制只有经过授权的工作人员和医生才能访问相关的患者数据。此外,保证原始医疗数据备份也很重要,在评测的标注阶段,相关工作人员应使用脱敏后的数据,但仍需对原始数据进行备份,确保数据可以安全地备份和恢复,以应对数据处理过程中导致的信息缺失等问题。 (3)伦理合规性。在医疗数据的处理过程中,需要遵循伦理原则,确保数据的使用符合道德和伦理标准。例如,在进行医疗研究时,使用患者数据必须经过伦理委员会的审查和批准,要充分考虑研究目的是否正当,是否会对患者造成潜在的伤害或不利影响;数据采集需避免偏见,例如纳入不同种族、不同社会经济地位的人群数据,防止算法歧视导致医疗资源分配不公。
(五)问题5:如何建立评测数据集与评测效果的反馈及更新机制?
推荐意见5:为保障医疗LLMs评测体系的高标准执行与持续优化,建议完善并落实严谨、透明且高效的反馈与更新机制。评测机构应构建多渠道、分层次的反馈体系,包括定期专家评审、在线反馈平台和临床验证模块,以确保收集到广泛且专业的意见。同时,应设立反馈管理团队与独立仲裁委员会,规范争议处理流程,保障问题得到公正、透明的解决。更新机制应基于法规变更、技术进步、应用扩展及安全事件等触发条件,实施季度或年度常规迭代,并设立多层分级的紧急响应流程以应对重大风险。同时,配合统一的版本管理与可追溯的历史库,可进一步保障评测体系的科学性、前瞻性和持续改进能力。[共识度:97.1%(34/35)] 由于医疗LLMs在临床应用中呈现复杂性、高风险性与快速演进性的特征,其评测体系必须动态且公平。有效的反馈与更新机制是保障评测体系科学性、时效性、公平性与可信性的根本,更是评测机构展现其专业性的关键。 1.反馈机制是提升评测体系精准性与公平性的核心:应设置多途径的反馈渠道,如定期召开专家评审会,能有效整合临床医生对于LLMs诊断支持、治疗决策等方面的专业判断与经验,这可以作为医疗AI评测的重要参考基准。同时,构建反馈平台和临床集成反馈模块可以直接获取一线医护人员在真实世界应用中的细微偏差与性能问题,从而弥补评测的不足。为应对医疗AI的潜在偏见风险,应建立反馈循环框架,可增设匿名反馈通道,将其贯穿于开发与部署的各个阶段,以同时保证公平性与持续质量改进。 标准化争议处理机制是保障AI评测体系公正性与客观性的关键环节。该机制的核心作用在于为涉及复杂伦理(如算法歧视导致的医疗不公平)或技术争议(如模型解释性不足)的问题提供制度化、权威性的解决路径,例如通过经严格程序遴选、力求独立公正的专家仲裁。同时,评测流程的透明和规范至关重要,在研究设计阶段就应明确数据处理标准、指标选择依据及模型评测方法。在计算模型性能指标时,需详尽公开数据来源、计算方法和关键假设条件,以体现评测机构的专业性、科学性与责任担当。透明度虽无法彻底消除所有质疑(如价值观冲突或理解差异),却能显著降低信息不对称带来的不信任,为结果可信度奠定基础,并使评测过程具备可审查性。争议处理机制与透明度建设相辅相成,共同成为可信赖AI评测体系的核心支柱。 2.动态更新机制是保障评测体系先进性、适应性与可持续性的必要条件:更新触发条件应确保评测体系能及时响应行业变化。医疗AI技术发展迅速,LLMs架构与能力迭代是常态,临床相关应用也会随之更新。及时更新的评测体系能够推动AI技术在不同领域不断适应新场景,实现技术革新,为AI新技术的发展提供活力。 科学的迭代周期与紧急响应机制保障了评测体系的时效性。常规的季度或年度迭代允许纳入新应用场景和数据,保持评测体系的活力。而多层分级的响应与修订流程则能妥善应对不同的突发性重大安全事件或政策调整。其在医疗这种高风险领域至关重要,能有效降低患者风险并保障对AI的监管合规性。 严谨的版本追溯机制是评测体系透明度与可信赖性的体现。统一的语义化版本标识和完善的历史版本库不仅便于用户追溯评测标准的变化,进行跨周期分析,也为监管机构进行审查提供了可靠依据。这种透明化管理证明了评测流程的可审查性与决策可解释性,极大提升了评测机构的专业性与公正性。同时,它也展示了评测流程的严谨性与责任感,进而在医疗AI生态系统中建立长期信任。 (六) 问题6:医疗场景下LLMs应用效果回顾性评测报告的标准化模板应包含哪些必备要素与披露要求? 推荐意见6:建议建立统一规范的评测报告结构与发布机制,确保评测结果的透明性、权威性和可复用性。评测报告应完整记录模型基本信息、评测背景与目标、评测范围及应用场景,详述评测数据来源与合规流程,明确采用的定量与定性评测指标及其计算方法。报告还应介绍评测专家的专业构成与地域分布,系统展示量化结果并结合专家定性评价,从准确性、安全性、实用性等多维度给出综合结论。最后,应规范报告的发布平台、获取方式及有效期管理,确保评测成果公开透明并便于持续更新。[共识度:100%(35/35)] 医疗场景下LLMs应用效果回顾性评测报告的标准化模板应包含以下关键要素,以保证评测结果的透明性、权威性和可复用性。 1.模型基本信息与评测背景:报告应清晰呈现被评测模型的名称、版本、开发者、主要功能,以及评测的目的、范围和具体应用场景,确保读者对评测对象有全面了解。例如,明确模型是用于辅助诊断、病历摘要,还是药物相互作用预测等特定任务。 2.评测数据来源与合规:详细描述评测所用数据集的构成,包括数据量、数据类型、版本号、来源,以及数据收集和处理过程中的伦理考量与合规性声明。特别需要明确数据集是否经过充分的脱敏处理,是否获得了患者的知情同意,以及是否符合相关数据安全法规。 3.评测指标与方法:清晰阐述所采用的定量指标(如准确率、召回率、F1值)和定性指标(如MOS评分、模型与真人医生一致性),并详细说明其计算方法。对于定性指标,需要说明调查问卷的设计、样本选择及统计分析方法。定量指标可以参考“问题2”中的指标进行选择。 4.评测团队信息:介绍评测团队组成的专业背景、职称和经验,确保评测团队具有充分的代表性和专业性。例如评测团队应包括高年资医学专家、计算机学专家、伦理学专家、统计学专家、法学专家等。 5.评测结果与综合评价:系统展示量化评测结果,并结合专家定性评价,从准确性、安全性、实用性、伦理合规性等多维度给出综合结论。报告应明确指出模型的优势与不足,以及潜在的应用风险与改进建议。报告应明确说明评测数据集、评测代码是否开放,以及在何种条件下可以被第三方访问以进行结果复现。 6.报告发布与更新:规范报告的发布平台、获取方式及有效期管理,确保评测成果公开透明并便于持续更新。建立统一的报告版本管理机制,便于用户追溯和比较不同版本模型的评测结果。评测报告应在权威平台发布,并明确报告有效期,以便用户获取最新的评测信息。 本共识作为指导性、非强制性的技术文件,聚焦医疗场景下LLMs应用效果的回顾性评测,旨在构建规范、科学的评测框架。我们倡导临床、科研、产业及监管多方主体协同参与,共同推进评测体系的持续完善与优化,确保评测方法与指标的科学性、权威性及实用性。展望未来,回顾性评测将在前瞻性研究及真实世界数据的支撑下不断深化,并逐步探索与前瞻性评估的融合机制,通过双重路径共同提升模型评估的广度与深度。评测内容与方法也将持续拓展,覆盖智能机器人、全病程数字健康管理等新兴应用领域,以期促进AI技术在医疗健康体系中的安全、有效及高质量应用。 本共识制订专家组成员名单: 指导委员会(按姓名拼音排序):陈耀龙(兰州大学基础医学院);董家鸿(北京清华长庚医院);葛均波(复旦大学医学院附属中山医院);魏均民(中华医学会杂志社 医学期刊知识挖掘与知识服务重点实验室) 主任委员:王振常(首都医科大学附属北京友谊医院) 专家委员会(按姓氏汉语拼音排序):常庆(上海交通大学瑞金医院);陈飞(华为云计算技术有限公司);程龙龙(中电云脑(天津)科技有限公司);董迪(中国科学院自动化研究所分子影像重点实验室);冯晓彬(清华大学长庚医院);何晶晶(中国社会科学院国际法学研究所);何怡华(首都医科大学附属北京安贞医院);贺志阳(讯飞医疗科技股份有限公司);计虹(北京大学第三医院信息中心);姜雪(北京大学第三医院);李楠(北京大学第三医院);李鹏(中华医学会杂志社医学期刊知识挖掘与知识服务重点实验室);李亚子(中国医学科学院);刘冰(中华医学会杂志社 医学期刊知识挖掘与知识服务重点实验室);刘军伟(蚂蚁科技集团股份有限公司);吕晗(首都医科大学附属北京友谊医院);闵栋(中国信通院云计算与大数据研究所);齐文安(《数字医学与健康》编辑部);沈锡宾(中华医学会杂志社 医学期刊知识挖掘与知识服务重点实验室);盛斌(上海交通大学);孙静(《智慧医学》(英文)编辑部);孙育杰(北京大学生命科学学院);王力华(首都医科大学附属北京友谊医院);王维民(北京大学医学部 北京大学医学教育研究所);王育琴(北京宣武医院);翁建平(安徽医科大学);吴刚(南京柯基数据有限公司);吴小剑(中山大学附属第六医院);肖月(国家心理健康和精神卫生防治中心);许言午(华南理工大学未来技术学院);闫鹏(深圳市腾讯计算机系统有限公司);叶哲伟(华中科技大学同济医学院附属协和医院);尹万红(四川大学华西医院重症医学科);张成文(北京邮电大学计算机学院);张迪(北京协和医学院人文和社会科学学院);张鹏俊(北京医院科研处);张文生(中国科学院自动化研究所);张旭东(国家卫生健康委医院管理研究所);赵世杰(西北工业大学);赵邑(北京清华长庚医院皮肤科);周少华(中国科学技术大学生物医学工程学院);周翔(北京协和医院);朱宝亮(上海小荷医学检验实验室有限公司);朱立峰(上海交通大学医学院附属瑞金医院);朱祖懿(北京百川智能科技有限公司)。 执笔专家:吕晗(首都医科大学附属北京友谊医院);盛斌(上海交通大学) 秘书组(按姓名拼音排序):江泽铧(清华大学临床医学院);田丙磊(中华医学会杂志社医学期刊知识挖掘与知识服务重点实验室);王凯磊(中华医学会杂志社 医学期刊知识挖掘与知识服务重点实验室);王丽(《数字医学与健康》编辑部);王晔(兰州大学公共卫生学院)
特别声明:智慧医疗网转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。
凡来源注明智慧医疗网的内容为智慧医疗网原创,转载需获授权。