欢迎访问智慧医疗网 | 网站首页
 
当前位置:首页 > 资讯 > 观点

卫健委点名“高质量数据集”:从《高质量数据集 建设指南》看医疗数据产品的新标准

发布时间:2026-06-26 来源:创新RWD 浏览量: 字号:【加大】【减小】 手机上观看

打开手机扫描二维码
即可在手机端查看

最近,医疗数据产品领域有一个标准值得认真看。它不是一份只给技术人员看的数据处理文件,也不是单纯讲“数据清洗”“数据标注”的操作手册。它真正重要的地方在于:第一次把“高质量数据集到底应该怎么建设”这件事,拆成了一套相对清晰的生命周期方法。这对医院、药企、AI企业、数商和真实世界研究机构,都有很强的现实意义。尤其是在国家卫健委明确提出,到2027年要建立一批卫生健康行业高质量数据集和可信数据空间的背景下,《高质量数据集 建设指南》实际上回答了一个非常关键的问题:


医疗行业要建设的“高质量数据集”,到底应该长什么样?

01
先说结论:医疗数据产品不能再停留在“有数据”阶段


过去谈医疗数据开发利用,很多时候讲的是医院有多少数据。
有多少门诊记录。有多少住院病历。有多少检验结果。有多少影像资料。有多少随访记录。
这些当然重要。
但如果只停留在“数据量”层面,医疗数据很难真正产品化。因为买方真正关心的不是医院有没有数据,而是这些数据能不能被用于明确场景。
能不能支撑AI模型训练?能不能支撑真实世界研究?能不能支撑药品疗效、安全性和经济性评价?能不能支撑医保价值评价?能不能支撑临床预测模型开发?能不能支撑指南、共识、论文和课题成果?
这就是《高质量数据集 建设指南》最重要的价值。
它把“数据资源”与“数据产品”区分开了。

原始数据只是资源。经过需求定义、架构规划、数据采集、预处理、标注和模型验证之后,才可能成为真正可用、可验收、可交易、可授权的数据产品。



02
国家卫健委要的不是“数据堆”,而是行业可用的高质量数据集

国家卫健委等部门提出“人工智能+医疗卫生”应用发展目标时,有两个关键词特别重要:
一个是高质量数据集。一个是可信数据空间。
这两个词放在一起,说明政策层面已经不再满足于简单的数据汇聚,也不是鼓励医疗数据无序流通。
真正的方向是:

数据要高质量;使用要有场景;流通要可控;过程要合规;结果要可验证。


这和医疗行业的基本属性高度一致。
医疗数据不是普通商业数据。它背后连接的是患者隐私、医疗安全、医生判断、医院治理、科研伦理和数据安全责任。医疗数据的开发利用,不能靠“导表”“传文件”“脱个敏就用”这种粗放方式推进。
所以,高质量数据集和可信数据空间,其实是一体两面。
高质量数据集解决的是:数据本身值不值得用。可信数据空间解决的是:数据如何安全合规地被使用。
前者决定数据产品的质量上限。后者决定数据产品的合规边界。
没有高质量数据集,可信数据空间只是一个安全容器。没有可信数据空间,高质量数据集也很难进入可控流通和多方协作场景。

03
这份指南最关键的变化:把数据建设变成了“全生命周期工程”

《高质量数据集 建设指南》没有把高质量数据集简单理解为“清洗后的数据”。
它提出的是一套完整生命周期:

数据需求;数据规划;数据采集;数据预处理;数据标注;模型验证。


这六个环节,对医疗数据产品来说,几乎就是一套产品建设路线图。
过去很多医疗数据项目容易失败,问题往往不是最后的统计分析做不好,而是一开始就没有把数据需求说清楚。
比如,某个项目说要做心血管风险预测模型,但没有提前明确:
目标人群是谁?预测窗口是院内、30天、90天还是1年?主要结局是什么?结局事件从哪里来?需要哪些检验指标?药物暴露如何定义?既往病史如何识别?缺失值如何处理?训练集、验证集、测试集如何划分?多中心之间变量口径是否一致?
这些问题如果前期不回答,后面拿到再多数据,也可能无法形成可用证据。
指南的价值,恰恰在于把这些问题前置了。
它要求先明确应用场景,再定义数据需求;先设计数据架构,再开展采集治理;先完成质量建模和预处理,再谈标注和模型验证。
这套逻辑,正是医疗数据产品化最缺的一块拼图。

04
医疗数据产品的核心,不是“脱敏”,而是“加工增值”

在很多医疗数据合作中,“数据治理”常常被误解为“脱敏”。
似乎只要去掉姓名、身份证号、手机号,数据就可以用了。
这是一个很大的误区。
真正的医疗数据产品加工,远不止脱敏。
它至少包括:

诊断名称标准化;检验项目标准化;检验单位换算;药品通用名映射;手术操作编码整理;时间轴重建;异常值识别;重复记录处理;缺失字段评估;关键变量补全规则;结局事件识别;多系统数据融合;变量字典建设;训练、验证、测试集划分;专家标注与复核;数据质量报告输出。


这些工作,才是医疗数据真正产生产品价值的地方。
同样是10万例糖尿病患者数据,如果只是从HIS里导出一批表,它的价值有限;如果它已经围绕心衰风险预测完成变量治理、NT-proBNP等关键指标标准化、结局事件标注、随访窗口定义、训练验证测试集划分,并经过模型验证,那它就是完全不同级别的数据产品。
前者是数据资源。后者是高质量数据集。

05
数据标注是医疗数据产品价值提升的关键环节

在医疗场景中,很多关键变量不是系统天然生成的。
比如:
肿瘤是否进展;影像是否缓解;是否发生主要心血管不良事件;是否出现药物相关不良反应;是否发生围检查期低氧;是否存在感染复发;某次住院是否与目标疾病相关;某个检验异常是否具有临床意义。
这些变量往往需要医生判断、专家复核,甚至需要多学科共识。
这意味着,医疗数据产品的高价值部分,很多时候不在原始字段,而在专家标注后的医学标签。
这也是医院和医生参与数据产品建设的重要价值所在。

如果没有医生参与,数据产品可能只是“结构化表格”。如果有医生参与标注、复核和质控,数据产品才可能真正进入临床研究、模型训练和证据生成环节。


从成果转化角度看,这一点也很重要。
医生的专业劳动,不只是科研支持,也可以成为高质量数据集建设过程中的核心增值贡献。未来在数据知识产权登记、科技成果转化、收益分配和多中心数据产品合作中,专家标注与质控工作都应该被清晰记录和合理体现。

06
模型验证让医疗数据产品从“可交付”走向“可证明”

高质量数据集最容易被忽略的一点,是模型验证。
很多数据产品交付时,只提供数据表、字段说明和脱敏声明。
但真正的买方会继续追问:
这个数据集能不能训练出有效模型?模型性能是否达到预期?AUC、校准度、灵敏度、特异度是否可接受?外部验证结果如何?如果模型表现不好,问题来自算法,还是来自数据质量?是否需要回到上游重新治理变量、补充标签、调整样本结构?
《高质量数据集 建设指南》把模型验证放到生命周期末端,这一点非常有价值。

它意味着,高质量数据集不是靠主观描述证明的,而是要通过应用结果反过来验证。


对医疗数据产品来说,这会直接改变验收方式。
未来,一个成熟的数据产品不应只交付“数据”,还应交付一套证据链:
数据需求说明书;变量字典;数据架构说明;采集规则;预处理规则;数据质量报告;标注规范;专家复核记录;训练、验证、测试集划分说明;模型验证报告;版本管理记录;可信数据空间使用日志。
这些材料加在一起,才构成一个医疗数据产品的可信基础。

07
它对医院最大的意义:数据资产化有了建设抓手

很多医院都在谈数据资产化、数据知识产权登记、数据产品交易和成果转化。
但实际推进时经常会遇到一个问题:
登记什么?产品是什么?价值怎么证明?价格怎么解释?买方为什么愿意付费?院内如何形成合规流程?医生贡献如何体现?

《高质量数据集 建设指南》给医院提供了一个非常实用的抓手。
医院可以不再笼统地说“我们有某专病数据”,而是围绕具体应用场景建设数据产品。


比如:
面向肺癌真实世界疗效评价的高质量数据集;面向糖尿病心衰风险预测的高质量数据集;面向胃镜围检查期低氧风险预测的高质量数据集;面向检验指标与院内心血管事件预测的高质量数据集;面向药品医保综合价值评价的真实世界数据产品。
这样的产品命名,本身就比“某某疾病数据库”更接近市场需求。
因为它不是按医院内部资源命名,而是按外部应用场景命名。
这才是真正的数据产品思维。

08
它对药企最大的意义:RWD建设要从项目制走向体系化

对药企来说,高质量数据集的意义也非常直接。
过去药企开展真实世界研究,常见路径是项目制:
有一个研究问题;找几家医院;签合作协议;导出数据;做统计分析;形成报告或论文。
这种方式可以解决单个项目,但很难形成持续证据能力。

未来,药企真正需要布局的,可能不是一次性的RWS项目,而是基于高质量数据集和可信数据空间的RWD证据生产体系。


前端是医院专病高质量数据集。中间是可信数据空间和计算服务许可授权。后端是RWS研究、预测模型、经济学评价、医保价值评价和学术成果转化。
在这个体系下,药企不一定直接占有医院原始数据,但可以在合规边界内持续获得证据能力。
这比“拿数据”更重要。
因为医疗数据的未来,不是简单转移所有权,而是在明确授权、可审计、可撤销、可追溯的环境下,实现数据可用不可见、价值可计算、过程可监管、成果可转化。

09
它对可信数据空间最大的意义:先有高质量数据产品,再谈空间流通

可信数据空间不是万能的。
它可以解决数据流通中的安全、授权、日志、合约、审计和可控使用问题,但它不能自动把低质量数据变成高质量数据。
如果挂载进去的是一批字段混乱、单位不一、缺失严重、结局不清、没有标注、没有验证的数据,那么即使放在可信数据空间里,使用价值仍然有限。
所以,未来医疗可信数据空间建设不能只看平台能力,还要看空间里有没有真正可用的数据产品。
换句话说:

可信数据空间解决“怎么用”。高质量数据集解决“值不值得用”。数据知识产权解决“成果归属和授权基础”。计算服务许可解决“买方如何合规使用”。模型验证和RWE成果解决“数据最终产生什么价值”。


这几件事必须连起来,医疗数据要素价值化才有可能真正落地。

10
医疗数据产品应尽快形成“六件套”

如果按照《高质量数据集 建设指南》的思路落地,医院和数商在建设医疗数据产品时,建议形成一套相对标准的产品交付材料。

  1. 数据需求说明书。说明这个数据集服务什么场景、解决什么问题、面向什么使用方、支持什么研究或模型任务。
  2. 数据架构与变量字典。说明数据来自哪些系统,包含哪些字段,字段含义、单位、取值范围、时间窗口和口径是什么。
  3. 数据采集与提取规则。说明纳排标准、抽取范围、数据源系统、时间区间、更新频率和提取逻辑。
  4. 数据治理与质控报告。说明缺失率、异常值、一致性、准确性、重复记录、单位换算、标准映射和质量评价结果。
  5. 医学标注与专家复核记录。说明标注对象、标注规则、专家资质、复核流程、争议处理和质控结果。
  6. 模型验证或研究验证报告。说明该数据集是否能够支撑预期AI模型、统计分析、真实世界研究或医保价值评价任务。

有了这六件套,医疗数据产品才真正具备可解释、可审计、可授权、可估值、可复用的基础。

11
未来医疗数据竞争,拼的不是谁数据多,而是谁的数据更可信

医疗行业过去并不缺数据。
真正缺的是可用的数据、可信的数据、可训练的数据、可验证的数据、可交易的数据。
《高质量数据集 建设指南》的意义就在这里。
它不是替医院增加一套形式化材料,而是帮助医院把沉睡在业务系统里的数据,转化成有明确场景、有质量模型、有专家参与、有验证结果、有授权边界的数据产品。
这背后对应的是医疗数据开发利用的一次范式变化。
过去是“数据在哪里”。现在要问“数据能不能用”。
过去是“能不能导出来”。现在要问“能不能在合规空间内被授权计算”。
过去是“有没有数据”。现在要问“能不能形成高质量数据集”。
过去是“做一个项目”。现在要问“能不能持续生产真实世界证据”。
对于医院来说,这是数据资产化的新起点。对于药企来说,这是RWD/RWE能力建设的新底座。对于AI企业来说,这是医疗垂直模型训练的新粮仓。对于可信数据空间来说,这是从平台建设走向场景应用的关键内容。

未来真正有价值的医疗数据产品,一定不是简单的数据表,也不是一次性的科研数据包。
它应该是一套围绕临床问题建设、经过标准化治理、具备专家标注、能够模型验证、可以合规授权、可在可信数据空间中持续使用的高质量数据集产品。


这也意味着,谁能率先把医院数据治理、专家医学判断、数据知识产权、可信数据空间和真实世界证据建设连接起来,谁就能在未来医疗数据产品竞争中占据主动。


特别声明:智慧医疗网转载其他网站内容,出于传递更多信息而非盈利之目的,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明智慧医疗网的内容为智慧医疗网原创,转载需获授权。

Copyright © 2022 上海科雷会展服务有限公司 旗下「智慧医疗网」版权所有    ICP备案号:沪ICP备17004559号-5