卫健委点名“高质量数据集”：从《高质量数据集建设指南》看医疗数据产品的新标准-观点-智慧医疗网

当前位置：首页 > 资讯 > 观点

卫健委点名“高质量数据集”：从《高质量数据集建设指南》看医疗数据产品的新标准

发布时间：2026-06-26 来源：创新RWD 浏览量：字号：【加大】【减小】手机上观看

打开手机扫描二维码
即可在手机端查看

最近，医疗数据产品领域有一个标准值得认真看。它不是一份只给技术人员看的数据处理文件，也不是单纯讲“数据清洗”“数据标注”的操作手册。它真正重要的地方在于：第一次把“高质量数据集到底应该怎么建设”这件事，拆成了一套相对清晰的生命周期方法。这对医院、药企、AI企业、数商和真实世界研究机构，都有很强的现实意义。尤其是在国家卫健委明确提出，到2027年要建立一批卫生健康行业高质量数据集和可信数据空间的背景下，《高质量数据集建设指南》实际上回答了一个非常关键的问题：

医疗行业要建设的“高质量数据集”，到底应该长什么样？

先说结论：医疗数据产品不能再停留在“有数据”阶段

过去谈医疗数据开发利用，很多时候讲的是医院有多少数据。

有多少门诊记录。有多少住院病历。有多少检验结果。有多少影像资料。有多少随访记录。

这些当然重要。

但如果只停留在“数据量”层面，医疗数据很难真正产品化。因为买方真正关心的不是医院有没有数据，而是这些数据能不能被用于明确场景。

能不能支撑AI模型训练？能不能支撑真实世界研究？能不能支撑药品疗效、安全性和经济性评价？能不能支撑医保价值评价？能不能支撑临床预测模型开发？能不能支撑指南、共识、论文和课题成果？

这就是《高质量数据集建设指南》最重要的价值。

它把“数据资源”与“数据产品”区分开了。

原始数据只是资源。经过需求定义、架构规划、数据采集、预处理、标注和模型验证之后，才可能成为真正可用、可验收、可交易、可授权的数据产品。

国家卫健委要的不是“数据堆”，而是行业可用的高质量数据集

国家卫健委等部门提出“人工智能+医疗卫生”应用发展目标时，有两个关键词特别重要：

一个是高质量数据集。一个是可信数据空间。

这两个词放在一起，说明政策层面已经不再满足于简单的数据汇聚，也不是鼓励医疗数据无序流通。

真正的方向是：

数据要高质量；使用要有场景；流通要可控；过程要合规；结果要可验证。

这和医疗行业的基本属性高度一致。

医疗数据不是普通商业数据。它背后连接的是患者隐私、医疗安全、医生判断、医院治理、科研伦理和数据安全责任。医疗数据的开发利用，不能靠“导表”“传文件”“脱个敏就用”这种粗放方式推进。

所以，高质量数据集和可信数据空间，其实是一体两面。

高质量数据集解决的是：数据本身值不值得用。可信数据空间解决的是：数据如何安全合规地被使用。

前者决定数据产品的质量上限。后者决定数据产品的合规边界。

没有高质量数据集，可信数据空间只是一个安全容器。没有可信数据空间，高质量数据集也很难进入可控流通和多方协作场景。

这份指南最关键的变化：把数据建设变成了“全生命周期工程”

《高质量数据集建设指南》没有把高质量数据集简单理解为“清洗后的数据”。

它提出的是一套完整生命周期：

数据需求；数据规划；数据采集；数据预处理；数据标注；模型验证。

这六个环节，对医疗数据产品来说，几乎就是一套产品建设路线图。

过去很多医疗数据项目容易失败，问题往往不是最后的统计分析做不好，而是一开始就没有把数据需求说清楚。

比如，某个项目说要做心血管风险预测模型，但没有提前明确：

目标人群是谁？预测窗口是院内、30天、90天还是1年？主要结局是什么？结局事件从哪里来？需要哪些检验指标？药物暴露如何定义？既往病史如何识别？缺失值如何处理？训练集、验证集、测试集如何划分？多中心之间变量口径是否一致？

这些问题如果前期不回答，后面拿到再多数据，也可能无法形成可用证据。

指南的价值，恰恰在于把这些问题前置了。

它要求先明确应用场景，再定义数据需求；先设计数据架构，再开展采集治理；先完成质量建模和预处理，再谈标注和模型验证。

这套逻辑，正是医疗数据产品化最缺的一块拼图。

医疗数据产品的核心，不是“脱敏”，而是“加工增值”

在很多医疗数据合作中，“数据治理”常常被误解为“脱敏”。

似乎只要去掉姓名、身份证号、手机号，数据就可以用了。

这是一个很大的误区。

真正的医疗数据产品加工，远不止脱敏。

它至少包括：

诊断名称标准化；检验项目标准化；检验单位换算；药品通用名映射；手术操作编码整理；时间轴重建；异常值识别；重复记录处理；缺失字段评估；关键变量补全规则；结局事件识别；多系统数据融合；变量字典建设；训练、验证、测试集划分；专家标注与复核；数据质量报告输出。

这些工作，才是医疗数据真正产生产品价值的地方。

同样是10万例糖尿病患者数据，如果只是从HIS里导出一批表，它的价值有限；如果它已经围绕心衰风险预测完成变量治理、NT-proBNP等关键指标标准化、结局事件标注、随访窗口定义、训练验证测试集划分，并经过模型验证，那它就是完全不同级别的数据产品。

前者是数据资源。后者是高质量数据集。

数据标注是医疗数据产品价值提升的关键环节

在医疗场景中，很多关键变量不是系统天然生成的。

比如：

肿瘤是否进展；影像是否缓解；是否发生主要心血管不良事件；是否出现药物相关不良反应；是否发生围检查期低氧；是否存在感染复发；某次住院是否与目标疾病相关；某个检验异常是否具有临床意义。

这些变量往往需要医生判断、专家复核，甚至需要多学科共识。

这意味着，医疗数据产品的高价值部分，很多时候不在原始字段，而在专家标注后的医学标签。

这也是医院和医生参与数据产品建设的重要价值所在。

如果没有医生参与，数据产品可能只是“结构化表格”。如果有医生参与标注、复核和质控，数据产品才可能真正进入临床研究、模型训练和证据生成环节。

从成果转化角度看，这一点也很重要。

医生的专业劳动，不只是科研支持，也可以成为高质量数据集建设过程中的核心增值贡献。未来在数据知识产权登记、科技成果转化、收益分配和多中心数据产品合作中，专家标注与质控工作都应该被清晰记录和合理体现。

模型验证让医疗数据产品从“可交付”走向“可证明”

高质量数据集最容易被忽略的一点，是模型验证。

很多数据产品交付时，只提供数据表、字段说明和脱敏声明。

但真正的买方会继续追问：

这个数据集能不能训练出有效模型？模型性能是否达到预期？AUC、校准度、灵敏度、特异度是否可接受？外部验证结果如何？如果模型表现不好，问题来自算法，还是来自数据质量？是否需要回到上游重新治理变量、补充标签、调整样本结构？

《高质量数据集建设指南》把模型验证放到生命周期末端，这一点非常有价值。

它意味着，高质量数据集不是靠主观描述证明的，而是要通过应用结果反过来验证。

对医疗数据产品来说，这会直接改变验收方式。

未来，一个成熟的数据产品不应只交付“数据”，还应交付一套证据链：

数据需求说明书；变量字典；数据架构说明；采集规则；预处理规则；数据质量报告；标注规范；专家复核记录；训练、验证、测试集划分说明；模型验证报告；版本管理记录；可信数据空间使用日志。

这些材料加在一起，才构成一个医疗数据产品的可信基础。

它对医院最大的意义：数据资产化有了建设抓手

很多医院都在谈数据资产化、数据知识产权登记、数据产品交易和成果转化。

但实际推进时经常会遇到一个问题：

登记什么？产品是什么？价值怎么证明？价格怎么解释？买方为什么愿意付费？院内如何形成合规流程？医生贡献如何体现？

《高质量数据集建设指南》给医院提供了一个非常实用的抓手。

医院可以不再笼统地说“我们有某专病数据”，而是围绕具体应用场景建设数据产品。

比如：

面向肺癌真实世界疗效评价的高质量数据集；面向糖尿病心衰风险预测的高质量数据集；面向胃镜围检查期低氧风险预测的高质量数据集；面向检验指标与院内心血管事件预测的高质量数据集；面向药品医保综合价值评价的真实世界数据产品。

这样的产品命名，本身就比“某某疾病数据库”更接近市场需求。

因为它不是按医院内部资源命名，而是按外部应用场景命名。

这才是真正的数据产品思维。

它对药企最大的意义：RWD建设要从项目制走向体系化

对药企来说，高质量数据集的意义也非常直接。

过去药企开展真实世界研究，常见路径是项目制：

有一个研究问题；找几家医院；签合作协议；导出数据；做统计分析；形成报告或论文。

这种方式可以解决单个项目，但很难形成持续证据能力。

未来，药企真正需要布局的，可能不是一次性的RWS项目，而是基于高质量数据集和可信数据空间的RWD证据生产体系。

前端是医院专病高质量数据集。中间是可信数据空间和计算服务许可授权。后端是RWS研究、预测模型、经济学评价、医保价值评价和学术成果转化。

在这个体系下，药企不一定直接占有医院原始数据，但可以在合规边界内持续获得证据能力。

这比“拿数据”更重要。

因为医疗数据的未来，不是简单转移所有权，而是在明确授权、可审计、可撤销、可追溯的环境下，实现数据可用不可见、价值可计算、过程可监管、成果可转化。

它对可信数据空间最大的意义：先有高质量数据产品，再谈空间流通

可信数据空间不是万能的。

它可以解决数据流通中的安全、授权、日志、合约、审计和可控使用问题，但它不能自动把低质量数据变成高质量数据。

如果挂载进去的是一批字段混乱、单位不一、缺失严重、结局不清、没有标注、没有验证的数据，那么即使放在可信数据空间里，使用价值仍然有限。

所以，未来医疗可信数据空间建设不能只看平台能力，还要看空间里有没有真正可用的数据产品。

换句话说：

可信数据空间解决“怎么用”。高质量数据集解决“值不值得用”。数据知识产权解决“成果归属和授权基础”。计算服务许可解决“买方如何合规使用”。模型验证和RWE成果解决“数据最终产生什么价值”。

这几件事必须连起来，医疗数据要素价值化才有可能真正落地。

医疗数据产品应尽快形成“六件套”

如果按照《高质量数据集建设指南》的思路落地，医院和数商在建设医疗数据产品时，建议形成一套相对标准的产品交付材料。

数据需求说明书。说明这个数据集服务什么场景、解决什么问题、面向什么使用方、支持什么研究或模型任务。
数据架构与变量字典。说明数据来自哪些系统，包含哪些字段，字段含义、单位、取值范围、时间窗口和口径是什么。
数据采集与提取规则。说明纳排标准、抽取范围、数据源系统、时间区间、更新频率和提取逻辑。
数据治理与质控报告。说明缺失率、异常值、一致性、准确性、重复记录、单位换算、标准映射和质量评价结果。
医学标注与专家复核记录。说明标注对象、标注规则、专家资质、复核流程、争议处理和质控结果。
模型验证或研究验证报告。说明该数据集是否能够支撑预期AI模型、统计分析、真实世界研究或医保价值评价任务。

有了这六件套，医疗数据产品才真正具备可解释、可审计、可授权、可估值、可复用的基础。

未来医疗数据竞争，拼的不是谁数据多，而是谁的数据更可信

医疗行业过去并不缺数据。

真正缺的是可用的数据、可信的数据、可训练的数据、可验证的数据、可交易的数据。

《高质量数据集建设指南》的意义就在这里。

它不是替医院增加一套形式化材料，而是帮助医院把沉睡在业务系统里的数据，转化成有明确场景、有质量模型、有专家参与、有验证结果、有授权边界的数据产品。

这背后对应的是医疗数据开发利用的一次范式变化。

过去是“数据在哪里”。现在要问“数据能不能用”。

过去是“能不能导出来”。现在要问“能不能在合规空间内被授权计算”。

过去是“有没有数据”。现在要问“能不能形成高质量数据集”。

过去是“做一个项目”。现在要问“能不能持续生产真实世界证据”。

对于医院来说，这是数据资产化的新起点。对于药企来说，这是RWD/RWE能力建设的新底座。对于AI企业来说，这是医疗垂直模型训练的新粮仓。对于可信数据空间来说，这是从平台建设走向场景应用的关键内容。

未来真正有价值的医疗数据产品，一定不是简单的数据表，也不是一次性的科研数据包。

它应该是一套围绕临床问题建设、经过标准化治理、具备专家标注、能够模型验证、可以合规授权、可在可信数据空间中持续使用的高质量数据集产品。

这也意味着，谁能率先把医院数据治理、专家医学判断、数据知识产权、可信数据空间和真实世界证据建设连接起来，谁就能在未来医疗数据产品竞争中占据主动。

特别声明：智慧医疗网转载其他网站内容，出于传递更多信息而非盈利之目的，内容仅供参考。版权归原作者所有，若有侵权，请联系我们删除。

凡来源注明智慧医疗网的内容为智慧医疗网原创，转载需获授权。

上一篇：逐条拆解 |《高质量数据集建设六大行动》：六大行动、2028年交卷，医院该怎么做下一篇：深度解读 | 刘烈宏《深化市场化配置改革释放数据要素价值》，医疗数据正走向"源头活水"

编辑推荐

卫健委点名“高质量数据集”：从《高质量数据集 建设指南》看医疗数据产品的新标准

卫健委点名“高质量数据集”：从《高质量数据集建设指南》看医疗数据产品的新标准