卫健委点名“高质量数据集”系列二:《高质量数据集格式要求》：医疗数据产品真正进入“可流通、可复用、可训练”的关键一步-医疗大数据与精准医疗-智慧医疗网

当前位置：首页 > 医疗大数据与精准医疗

卫健委点名“高质量数据集”系列二:《高质量数据集格式要求》：医疗数据产品真正进入“可流通、可复用、可训练”的关键一步

发布时间：2026-06-29 来源：创新RWD 浏览量：字号：【加大】【减小】手机上观看

打开手机扫描二维码
即可在手机端查看

过去谈医疗数据产品，很多人习惯先问三个问题：这个数据量有多大？覆盖多少患者？能不能用于科研或模型训练？但随着高质量数据集标准体系逐步成型，这三个问题已经不够了。

未来真正有价值的医疗数据产品，不仅要看“有没有数据”，还要看这批数据能不能被机器读懂，能不能被平台调用，能不能被模型训练，能不能被追溯来源，能不能被审计版本，能不能明确授权边界。

这也是《高质量数据集格式要求》这份技术文件真正值得医疗行业重视的地方。

它表面上讲的是“格式”。

但放到医疗数据产品、真实世界数据、AI模型训练和数据资产化场景里看，它讲的其实是：

医疗数据从“表格资产”走向“标准化数据产品”的底层规则。

为什么“格式要求”比想象中更重要？

很多医院和企业在做医疗数据治理时，容易把注意力放在字段清洗、脱敏、标注、建库上。

这些当然重要。

但还有一个经常被忽视的问题：

数据处理完以后，到底应该以什么样的结构存在？

如果每家医院一个格式，每个项目一个格式，每个供应商一套字段，每个平台一套接口，那么所谓“高质量数据集”，很容易变成一个个只能在本项目内使用的“孤岛数据包”。

项目结束后，换一个模型、换一个平台、换一个研究问题，就要重新解释一遍、转换一遍、清洗一遍。

这不是高质量数据集。

这只是被整理过的一次性科研数据。

《高质量数据集格式要求》解决的正是这个问题。

它要求高质量数据集中每条数据，都要具备一套基础元数据。

这些元数据包括：

数据标识；

关联数据标识；

数据内容；

标注信息；

原始时间；

最后修改时间；

数据版本；

授权类型；

来源类型；

来源详情；

生成数据标志。

这些内容看起来很技术。

但换成医疗数据产品语言，其实就是一句话：

一条数据，不能只留下“值”，还要留下它是谁、从哪里来、怎么来的、能怎么用、改过没有、谁标注过、是否生成、和哪些数据有关。

这才是医疗数据未来能够被复用、被授权、被交易、被训练、被审计的基础。

医疗数据产品不能只有“内容”，还必须有“身份”

这份技术文件把“数据标识”放在非常靠前的位置。

这很关键。

过去很多医疗数据项目，数据进入研究数据库以后，往往只剩下病人编号、住院号替代码、就诊编号、检查结果、诊断、用药、结局等字段。

这些字段可以完成一次研究。

但如果要做数据产品，就不够了。

因为数据产品不是一次性分析材料。

数据产品需要长期维护、版本管理、授权使用、调用追踪和合规审计。

这就要求每条数据都要有自己的唯一标识。

不是简单的Excel行号。

不是某个项目组临时生成的编号。

而是能够在更大范围内被识别、被关联、被追踪的全域唯一标识。

对于医疗数据产品而言，这意味着：

一条检验结果，要能知道它属于哪次就诊；

一张影像，要能关联到检查记录、诊断结果和后续结局；

一次用药，要能关联到适应症、剂量、疗程和疗效评价；

一个标注结果，要能追溯到原始数据、标注人员类型和标注方式。

没有数据标识，数据只是“内容”。

有了数据标识，数据才开始具备“资产身份”。

关联数据标识，决定了医疗数据能不能形成真实世界证据链

医疗数据最有价值的地方，往往不在单个字段，而在字段之间的关系。

一个NT-proBNP数值，本身只是一个检验结果。

但如果它能和患者基础疾病、用药情况、随访结局、心衰住院、死亡风险联系起来，它就变成了真实世界证据的一部分。

一次胃镜检查中的血氧下降，本身只是一个事件。

但如果它能和术前检验、镇静药物组合、年龄、BMI、既往病史、护理记录、恢复时间联系起来，它就可能支撑一个围检查期风险预测模型。

这就是“关联数据标识”的意义。

标准中要求，当前数据可以记录与其存在明确关联关系的其他数据标识。

放到医疗场景里，这实际是在要求医疗数据产品不能只是堆字段，而要保留数据之间的结构关系。

医疗数据天然是多源、多时点、多模态的。

HIS里有诊疗记录；

LIS里有检验数据；

PACS里有影像数据；

EMR里有病程和出院小结；

麻醉系统里有生命体征；

随访系统里有结局事件。

如果这些数据之间没有统一关联关系，后续就很难形成可解释、可复核、可训练的证据链。

所以，高质量医疗数据集的建设，不能只做“字段汇总”。

更重要的是建立：

患者级关联；

就诊级关联；

时间轴关联；

事件级关联；

样本级关联；

标注结果关联。

这也是未来医疗数据产品区别于普通科研数据表的关键。

数据内容要支持多模态，医疗行业尤其不能只盯结构化数据

这份技术文件明确提出，数据内容可以是单条数据，也可以是同一模态的多条数据组合，或者不同模态的多条数据组合。

这句话对医疗行业非常重要。

因为医疗数据本来就不是单一形态。

一名患者的真实临床信息，可能同时包括：

结构化检验指标；

诊断和手术编码；

药品处方；

影像图像；

病理图像；

超声报告；

内镜图像；

医生病程文本；

护理记录；

患者随访文本；

可穿戴设备数据。

过去很多真实世界研究更偏结构化数据。

但到了医学AI和高质量数据集阶段，文本、图像、音频、视频、多模态数据都会越来越重要。

例如：

病理大模型需要病理图像和诊断标签；

影像模型需要影像数据和报告结论；

临床大模型需要病历文本和结构化变量；

专病预测模型需要检验、用药、结局和时间序列；

患者管理模型需要症状、随访和行为数据。

因此，医疗数据产品的设计不能只停留在“数据库表”的思维里。

更应该从一开始就考虑：

这个数据产品是否支持多模态？

不同模态之间如何关联？

图像、文本、结构化字段是否有统一索引？

内容是直接存储，还是以路径方式挂载？

数据是否可以被可信数据空间、沙箱或训练平台统一读取？

未来医疗数据产品的竞争，不只是看谁的数据多。

更要看谁的数据结构更适合AI读取、训练和复用。

标注信息，是医疗数据集从“真实世界数据”升级为“高质量数据集”的分水岭

医疗数据不是天然就能训练模型。

很多临床数据虽然真实，但并不一定高质量。

原因很简单：

模型需要明确的目标变量。

而临床原始数据里，很多目标变量并不是天然存在的。

比如：

某个患者是否真正发生了心衰恶化？

某张影像中的病灶边界在哪里？

某段病历文本是否提示药物不良反应？

某次低氧事件是否具有临床意义？

某个结局事件是否和研究定义一致？

这些都需要标注。

标准中特别设置了标注信息元数据，包括标签、标注方式和标注人员类型。

这对医疗行业有很强的现实意义。

因为医疗数据的标注，不是简单打标签。

它往往需要临床专家参与。

普通标注员可以做基础分类；

专业标注员可以做规范化处理；

行业领域专家才能完成高价值医学判断。

比如肿瘤疗效评价、影像病灶勾画、心血管事件判定、不良反应归因、疾病进展确认，这些都不是普通数据工程师可以独立完成的。

所以，未来判断一个医疗高质量数据集是否有价值，不能只看数据规模。

还要看：

有没有标注；

标注规则是否清楚；

标注方式是人工、自动还是半自动；

标注人员是不是临床专家；

是否有复核机制；

标签能不能支撑目标AI任务。

这也是医院临床专家价值重新被看见的地方。

医生不只是数据的使用者。

在高质量数据集建设中，医生也是数据知识密度的创造者。

版本管理，决定数据产品能不能长期运营

很多医疗数据项目有一个问题：

项目交付时看起来完整，但过一段时间就说不清楚了。

哪些字段改过？

哪些样本补充过？

哪些标签更新过？

哪些数据被重新清洗过？

哪一版用于论文分析？

哪一版用于模型训练？

哪一版对外授权？

如果没有版本管理，数据产品很难长期运营。

标准中要求记录原始时间、最后修改时间和数据版本。

这实际上是在提醒医疗机构和数据产品服务方：

高质量数据集不是一次性交付物，而是可以持续维护的版本化产品。

这对医疗数据成果转化尤其重要。

因为医疗数据产品一旦进入授权许可、可信数据空间调用、模型训练、真实世界研究或医保价值评价，就必须回答几个问题：

药企使用的是哪一版数据？

模型训练基于哪一版数据？

研究报告对应哪一版数据？

数据更新后是否影响原有结论？

如果发生争议，能否回溯当时使用的数据状态？

没有版本，就没有可审计性。

没有可审计性，就很难支撑严肃的科研、监管和商业合作。

所以，医院未来建设数据产品，不能只建“数据库”。

还要建立数据产品的版本管理体系。

这包括数据版本、标签版本、字典版本、规则版本、质控版本和交付版本。

授权类型，是医疗数据产品合规流通的入口

标准中要求记录“授权类型”，包括开源、公共授权、商业授权、仅内部、其他等类型。

放在医疗场景里，这一项尤其敏感。

因为医疗数据不是普通数据。

它涉及患者隐私、医院管理、数据安全、科研伦理、成果转化和国有资产管理。

因此，一个医疗数据产品能不能被外部使用，不取决于“技术上能不能导出”。

而取决于：

是否明确授权类型；

是否明确使用目的；

是否限定使用场景；

是否限定使用期限；

是否限定使用主体；

是否限定交付环境；

是否允许再授权；

是否允许模型训练；

是否允许商业化应用；

是否允许输出衍生成果。

这也是为什么未来医疗数据产品合作，不能再简单写成“数据共享”或“数据提供”。

更合适的表达，应该是围绕特定数据产品，在明确用途、期限、场景、环境和安全要求下，开展计算服务许可、技术服务许可或成果转化合作。

对于医院而言，授权类型不是一个格式字段。

它是数据产品合规边界的入口。

对于药企而言，授权类型也不是一个形式条款。

它决定了企业能不能合法、稳定、可审计地使用这项数据产品形成真实世界证据。

来源详情，让数据产品具备可追溯性

医疗数据产品的价值，不只来自数据本身，还来自数据来源的可信程度。

同样一个诊断字段，来自医生手工录入，还是来自标准编码系统？

同样一个检验结果，来自哪类设备、哪个系统、哪个时间点？

同样一个结局事件，是来自住院病案首页，还是来自随访系统？

同样一个外部知识标签，是来自指南、论文、标准，还是专家共识？

这些差异会直接影响数据质量和模型可信度。

标准要求记录来源类型和来源详情。

这对医疗数据产品非常关键。

因为未来医疗AI模型和真实世界证据都需要回答：

数据来自哪里？

来源是否可靠？

来源是否可以复核？

来源是否有明确出处？

来源是否符合授权边界？

对于医疗行业来说，来源详情不应该只是“某医院数据库”。

更应该尽可能记录到：

系统来源；

字段来源；

文档来源；

标准来源；

报告来源；

指南来源；

论文来源；

机构来源；

采集或生成规则来源。

只有来源清楚，数据产品才有可信度。

只有来源可追溯，模型结论才有解释空间。

生成数据标志，提醒医疗AI不能混淆真实数据和合成数据

这份技术文件还有一个很有前瞻性的要求：

记录数据是否为生成数据。

这在医疗AI场景中非常重要。

未来高质量数据集建设中，合成数据、增强数据、模拟样本、自动生成文本、AI辅助标注会越来越常见。

这些技术可以提高数据可用性，也可以在隐私保护、样本扩充、稀有病研究、小样本模型训练中发挥作用。

但前提是：

真实数据和生成数据不能混在一起不加说明。

否则会带来很大风险。

如果一个模型训练集中包含生成数据，但没有明确标识，后续模型性能评价、泛化能力判断、临床可靠性解释都会受到影响。

如果一项真实世界研究中混入生成数据，而没有明确边界，那就更容易引发证据可信度问题。

所以，生成数据标志不是一个小字段。

它实际上是在为未来医疗AI建立一条底线：

可以使用生成数据，但必须说明。

可以使用合成数据，但必须标识。

可以做数据增强，但不能把增强结果伪装成真实临床数据。

这对医疗数据产品的可信流通非常重要。

这份标准给医院的启发：高质量数据集建设要从“可发表”走向“可产品化”

过去医院做数据项目，常见目标是课题、论文、模型、报告。

这些目标都很重要。

但如果站在数据资产化和成果转化角度，仅仅“能发论文”已经不够了。

未来医院真正有价值的数据成果，应当能够被持续使用、合规授权、可信交付、版本管理、质量评估和收益分配。

这就要求医院在建设专病数据库、高质量数据集和真实世界数据产品时，从一开始就引入格式标准。

具体来说，医院至少要做几件事：

建立数据唯一标识体系。
让患者、就诊、检查、样本、影像、文本、标注结果之间能够形成稳定关联。
建立多模态数据组织方式。
不仅管理结构化字段，也要管理影像、病理、报告、文本、随访等数据内容。
建立专家标注体系。
把临床专家的判断转化为可记录、可复核、可训练的标签资产。
建立版本管理体系。
明确每一次加工、清洗、标注、质控和授权所对应的数据版本。
建立授权和来源管理体系。
让每一项数据产品都能说清楚来源、权属、授权类型和使用边界。
建立可信交付体系。

通过可信数据空间、计算沙箱、TEE或隐私计算环境，实现数据可用不可见、过程可审计、结果可审核。

只有这样，医院的数据成果才不会停留在一次性科研项目里。

它才有可能成为真正意义上的医疗数据产品。

这份标准给药企的启发：未来买的不是“数据包”，而是标准化数据产品的使用能力

对药企来说，这份标准同样重要。

过去药企开展真实世界研究，很多时候关注的是能不能找到医院、能不能拿到数据、能不能完成分析。

但在新的合规和数据要素环境下，药企真正需要的是一套稳定、可信、可复核的数据产品使用能力。

也就是说，药企不应该只问医院：

有没有数据？

而应该进一步问：

这是不是高质量数据集？

数据有没有唯一标识？

数据之间能不能关联？

标注是否由临床专家完成？

数据版本是否明确？

授权类型是否清楚？

来源是否可追溯？

是否区分真实数据和生成数据？

能否通过可信数据空间完成计算服务？

能否支撑模型训练、真实世界研究或医保价值评价？

这些问题，决定了药企后续形成的真实世界证据到底硬不硬。

未来药企真正要建设的，不只是单个RWS项目。

而是围绕高质量数据集、可信数据空间和计算服务许可授权，建立持续的真实世界证据生产体系。

真正的变化：医疗数据产品正在从“整理数据”进入“工程化生产”阶段

《高质量数据集格式要求》最大的价值，不是提出了几个字段。

而是把高质量数据集从“经验加工”推向“工程化生产”。

这意味着，未来医疗数据产品建设不能再靠项目团队临时整理。

它需要标准化的数据结构。

需要统一的元数据体系。

需要可追踪的来源。

需要可管理的版本。

需要可说明的授权。

需要可复核的标注。

需要可识别的生成数据边界。

这套规则看起来偏技术，但它背后对应的是医疗数据产品的商业化、合规化和规模化。

没有统一格式，数据很难跨平台使用。

没有元数据，数据很难长期维护。

没有标注信息，数据很难训练模型。

没有版本管理，结果很难审计。

没有授权类型，合作很难合规。

没有来源详情，证据很难被信任。

没有生成数据标志，AI训练很难说清边界。

所以，这份标准真正想解决的，不只是“数据怎么存”。

而是“医疗数据如何成为可信的数据产品”。

结语：未来真正有价值的医疗数据产品，一定是标准化的高质量数据集

医疗行业并不缺数据。

医院每天都在产生大量诊疗数据、检验数据、影像数据、病历文本和随访数据。

但这些数据如果没有统一标识，没有关联关系，没有标注信息，没有版本管理，没有授权边界，没有来源追溯，就很难真正进入AI训练、真实世界研究和数据要素流通体系。

未来真正有价值的医疗数据产品，一定不是简单的数据表，也不是一次性的科研数据包。

它应该是一套按照标准建设、经过治理加工、具备专家标注、明确来源授权、支持版本追溯、能够被可信环境调用的高质量数据集产品。

从这个意义上说，《高质量数据集格式要求》虽然讲的是格式，但它真正推动的是医疗数据产品的底层标准化。

医院未来要做的，不只是把数据整理出来。

而是把数据做成可以被识别、被关联、被授权、被训练、被审计、被复用的标准化产品。

这一步，才是医疗数据从资源走向资产、从资产走向产品、从产品走向真实世界证据生产能力的关键一步。

特别声明：智慧医疗网转载其他网站内容，出于传递更多信息而非盈利之目的，内容仅供参考。版权归原作者所有，若有侵权，请联系我们删除。

凡来源注明智慧医疗网的内容为智慧医疗网原创，转载需获授权。

上一篇：医疗数字化 | 数据筑基，智能跃迁：医疗信息化进入“拼数据”时代下一篇：筑成医疗数据合规流通高速路！嘉兴首个医疗数据融合创新实验室落地

编辑推荐

卫健委点名“高质量数据集”系列二:《高质量数据集 格式要求》：医疗数据产品真正进入“可流通、可复用、可训练”的关键一步

卫健委点名“高质量数据集”系列二:《高质量数据集格式要求》：医疗数据产品真正进入“可流通、可复用、可训练”的关键一步