欢迎访问智慧医疗网 | 网站首页
 

卫健委点名“高质量数据集”系列二:《高质量数据集 格式要求》:医疗数据产品真正进入“可流通、可复用、可训练”的关键一步

发布时间:2026-06-29 来源:创新RWD 浏览量: 字号:【加大】【减小】 手机上观看

打开手机扫描二维码
即可在手机端查看

过去谈医疗数据产品,很多人习惯先问三个问题:这个数据量有多大?覆盖多少患者?能不能用于科研或模型训练?但随着高质量数据集标准体系逐步成型,这三个问题已经不够了。


未来真正有价值的医疗数据产品,不仅要看“有没有数据”,还要看这批数据能不能被机器读懂,能不能被平台调用,能不能被模型训练,能不能被追溯来源,能不能被审计版本,能不能明确授权边界。


这也是《高质量数据集 格式要求》这份技术文件真正值得医疗行业重视的地方。
它表面上讲的是“格式”。
但放到医疗数据产品、真实世界数据、AI模型训练和数据资产化场景里看,它讲的其实是:
医疗数据从“表格资产”走向“标准化数据产品”的底层规则。

01
为什么“格式要求”比想象中更重要?

很多医院和企业在做医疗数据治理时,容易把注意力放在字段清洗、脱敏、标注、建库上。
这些当然重要。
但还有一个经常被忽视的问题:
数据处理完以后,到底应该以什么样的结构存在?
如果每家医院一个格式,每个项目一个格式,每个供应商一套字段,每个平台一套接口,那么所谓“高质量数据集”,很容易变成一个个只能在本项目内使用的“孤岛数据包”。

项目结束后,换一个模型、换一个平台、换一个研究问题,就要重新解释一遍、转换一遍、清洗一遍。
这不是高质量数据集。


这只是被整理过的一次性科研数据。
《高质量数据集 格式要求》解决的正是这个问题。
它要求高质量数据集中每条数据,都要具备一套基础元数据。
这些元数据包括:

  • 数据标识;
  • 关联数据标识;
  • 数据内容;
  • 标注信息;
  • 原始时间;
  • 最后修改时间;
  • 数据版本;
  • 授权类型;
  • 来源类型;
  • 来源详情;
  • 生成数据标志。

这些内容看起来很技术。
但换成医疗数据产品语言,其实就是一句话:
一条数据,不能只留下“值”,还要留下它是谁、从哪里来、怎么来的、能怎么用、改过没有、谁标注过、是否生成、和哪些数据有关。
这才是医疗数据未来能够被复用、被授权、被交易、被训练、被审计的基础。

02
医疗数据产品不能只有“内容”,还必须有“身份”

这份技术文件把“数据标识”放在非常靠前的位置。
这很关键。
过去很多医疗数据项目,数据进入研究数据库以后,往往只剩下病人编号、住院号替代码、就诊编号、检查结果、诊断、用药、结局等字段。
这些字段可以完成一次研究。
但如果要做数据产品,就不够了。
因为数据产品不是一次性分析材料。
数据产品需要长期维护、版本管理、授权使用、调用追踪和合规审计。
这就要求每条数据都要有自己的唯一标识。
不是简单的Excel行号。
不是某个项目组临时生成的编号。
而是能够在更大范围内被识别、被关联、被追踪的全域唯一标识。
对于医疗数据产品而言,这意味着:

  • 一条检验结果,要能知道它属于哪次就诊;
  • 一张影像,要能关联到检查记录、诊断结果和后续结局;
  • 一次用药,要能关联到适应症、剂量、疗程和疗效评价;
  • 一个标注结果,要能追溯到原始数据、标注人员类型和标注方式。


没有数据标识,数据只是“内容”。
有了数据标识,数据才开始具备“资产身份”。



03
关联数据标识,决定了医疗数据能不能形成真实世界证据链

医疗数据最有价值的地方,往往不在单个字段,而在字段之间的关系。
一个NT-proBNP数值,本身只是一个检验结果。
但如果它能和患者基础疾病、用药情况、随访结局、心衰住院、死亡风险联系起来,它就变成了真实世界证据的一部分。
一次胃镜检查中的血氧下降,本身只是一个事件。
但如果它能和术前检验、镇静药物组合、年龄、BMI、既往病史、护理记录、恢复时间联系起来,它就可能支撑一个围检查期风险预测模型。
这就是“关联数据标识”的意义。
标准中要求,当前数据可以记录与其存在明确关联关系的其他数据标识。

放到医疗场景里,这实际是在要求医疗数据产品不能只是堆字段,而要保留数据之间的结构关系。


医疗数据天然是多源、多时点、多模态的。

  • HIS里有诊疗记录;
  • LIS里有检验数据;
  • PACS里有影像数据;
  • EMR里有病程和出院小结;
  • 麻醉系统里有生命体征;
  • 随访系统里有结局事件。

如果这些数据之间没有统一关联关系,后续就很难形成可解释、可复核、可训练的证据链。
所以,高质量医疗数据集的建设,不能只做“字段汇总”。
更重要的是建立:

  • 患者级关联;
  • 就诊级关联;
  • 时间轴关联;
  • 事件级关联;
  • 样本级关联;
  • 标注结果关联。

这也是未来医疗数据产品区别于普通科研数据表的关键。

04
数据内容要支持多模态,医疗行业尤其不能只盯结构化数据

这份技术文件明确提出,数据内容可以是单条数据,也可以是同一模态的多条数据组合,或者不同模态的多条数据组合。
这句话对医疗行业非常重要。
因为医疗数据本来就不是单一形态。
一名患者的真实临床信息,可能同时包括:

  • 结构化检验指标;
  • 诊断和手术编码;
  • 药品处方;
  • 影像图像;
  • 病理图像;
  • 超声报告;
  • 内镜图像;
  • 医生病程文本;
  • 护理记录;
  • 患者随访文本;
  • 可穿戴设备数据。


过去很多真实世界研究更偏结构化数据。
但到了医学AI和高质量数据集阶段,文本、图像、音频、视频、多模态数据都会越来越重要。


例如:

  • 病理大模型需要病理图像和诊断标签;
  • 影像模型需要影像数据和报告结论;
  • 临床大模型需要病历文本和结构化变量;
  • 专病预测模型需要检验、用药、结局和时间序列;
  • 患者管理模型需要症状、随访和行为数据。

因此,医疗数据产品的设计不能只停留在“数据库表”的思维里。
更应该从一开始就考虑:
这个数据产品是否支持多模态?
不同模态之间如何关联?
图像、文本、结构化字段是否有统一索引?
内容是直接存储,还是以路径方式挂载?
数据是否可以被可信数据空间、沙箱或训练平台统一读取?
未来医疗数据产品的竞争,不只是看谁的数据多。
更要看谁的数据结构更适合AI读取、训练和复用。

05
标注信息,是医疗数据集从“真实世界数据”升级为“高质量数据集”的分水岭

医疗数据不是天然就能训练模型。
很多临床数据虽然真实,但并不一定高质量。
原因很简单:
模型需要明确的目标变量。
而临床原始数据里,很多目标变量并不是天然存在的。
比如:

  • 某个患者是否真正发生了心衰恶化?
  • 某张影像中的病灶边界在哪里?
  • 某段病历文本是否提示药物不良反应?
  • 某次低氧事件是否具有临床意义?
  • 某个结局事件是否和研究定义一致?

这些都需要标注。
标准中特别设置了标注信息元数据,包括标签、标注方式和标注人员类型。
这对医疗行业有很强的现实意义。
因为医疗数据的标注,不是简单打标签。
它往往需要临床专家参与。
普通标注员可以做基础分类;
专业标注员可以做规范化处理;
行业领域专家才能完成高价值医学判断。
比如肿瘤疗效评价、影像病灶勾画、心血管事件判定、不良反应归因、疾病进展确认,这些都不是普通数据工程师可以独立完成的。
所以,未来判断一个医疗高质量数据集是否有价值,不能只看数据规模。
还要看:

  • 有没有标注;
  • 标注规则是否清楚;
  • 标注方式是人工、自动还是半自动;
  • 标注人员是不是临床专家;
  • 是否有复核机制;
  • 标签能不能支撑目标AI任务。

这也是医院临床专家价值重新被看见的地方。

医生不只是数据的使用者。
在高质量数据集建设中,医生也是数据知识密度的创造者。



06
版本管理,决定数据产品能不能长期运营

很多医疗数据项目有一个问题:
项目交付时看起来完整,但过一段时间就说不清楚了。
哪些字段改过?
哪些样本补充过?
哪些标签更新过?
哪些数据被重新清洗过?
哪一版用于论文分析?
哪一版用于模型训练?
哪一版对外授权?
如果没有版本管理,数据产品很难长期运营。
标准中要求记录原始时间、最后修改时间和数据版本。
这实际上是在提醒医疗机构和数据产品服务方:

高质量数据集不是一次性交付物,而是可以持续维护的版本化产品。
这对医疗数据成果转化尤其重要。


因为医疗数据产品一旦进入授权许可、可信数据空间调用、模型训练、真实世界研究或医保价值评价,就必须回答几个问题:
药企使用的是哪一版数据?
模型训练基于哪一版数据?
研究报告对应哪一版数据?
数据更新后是否影响原有结论?
如果发生争议,能否回溯当时使用的数据状态?
没有版本,就没有可审计性。
没有可审计性,就很难支撑严肃的科研、监管和商业合作。
所以,医院未来建设数据产品,不能只建“数据库”。
还要建立数据产品的版本管理体系。
这包括数据版本、标签版本、字典版本、规则版本、质控版本和交付版本。

07
授权类型,是医疗数据产品合规流通的入口

标准中要求记录“授权类型”,包括开源、公共授权、商业授权、仅内部、其他等类型。
放在医疗场景里,这一项尤其敏感。
因为医疗数据不是普通数据。
它涉及患者隐私、医院管理、数据安全、科研伦理、成果转化和国有资产管理。
因此,一个医疗数据产品能不能被外部使用,不取决于“技术上能不能导出”。
而取决于:

  • 是否明确授权类型;
  • 是否明确使用目的;
  • 是否限定使用场景;
  • 是否限定使用期限;
  • 是否限定使用主体;
  • 是否限定交付环境;
  • 是否允许再授权;
  • 是否允许模型训练;
  • 是否允许商业化应用;
  • 是否允许输出衍生成果。

这也是为什么未来医疗数据产品合作,不能再简单写成“数据共享”或“数据提供”。

更合适的表达,应该是围绕特定数据产品,在明确用途、期限、场景、环境和安全要求下,开展计算服务许可、技术服务许可或成果转化合作。


对于医院而言,授权类型不是一个格式字段。
它是数据产品合规边界的入口。
对于药企而言,授权类型也不是一个形式条款。
它决定了企业能不能合法、稳定、可审计地使用这项数据产品形成真实世界证据。

08
来源详情,让数据产品具备可追溯性

医疗数据产品的价值,不只来自数据本身,还来自数据来源的可信程度。
同样一个诊断字段,来自医生手工录入,还是来自标准编码系统?
同样一个检验结果,来自哪类设备、哪个系统、哪个时间点?
同样一个结局事件,是来自住院病案首页,还是来自随访系统?
同样一个外部知识标签,是来自指南、论文、标准,还是专家共识?
这些差异会直接影响数据质量和模型可信度。
标准要求记录来源类型和来源详情。
这对医疗数据产品非常关键。

因为未来医疗AI模型和真实世界证据都需要回答:
数据来自哪里?
来源是否可靠?
来源是否可以复核?
来源是否有明确出处?
来源是否符合授权边界?


对于医疗行业来说,来源详情不应该只是“某医院数据库”。
更应该尽可能记录到:

  • 系统来源;
  • 字段来源;
  • 文档来源;
  • 标准来源;
  • 报告来源;
  • 指南来源;
  • 论文来源;
  • 机构来源;
  • 采集或生成规则来源。

只有来源清楚,数据产品才有可信度。
只有来源可追溯,模型结论才有解释空间。

09
生成数据标志,提醒医疗AI不能混淆真实数据和合成数据

这份技术文件还有一个很有前瞻性的要求:
记录数据是否为生成数据。
这在医疗AI场景中非常重要。

未来高质量数据集建设中,合成数据、增强数据、模拟样本、自动生成文本、AI辅助标注会越来越常见。


这些技术可以提高数据可用性,也可以在隐私保护、样本扩充、稀有病研究、小样本模型训练中发挥作用。
但前提是:
真实数据和生成数据不能混在一起不加说明。
否则会带来很大风险。
如果一个模型训练集中包含生成数据,但没有明确标识,后续模型性能评价、泛化能力判断、临床可靠性解释都会受到影响。
如果一项真实世界研究中混入生成数据,而没有明确边界,那就更容易引发证据可信度问题。
所以,生成数据标志不是一个小字段。
它实际上是在为未来医疗AI建立一条底线:
可以使用生成数据,但必须说明。
可以使用合成数据,但必须标识。
可以做数据增强,但不能把增强结果伪装成真实临床数据。
这对医疗数据产品的可信流通非常重要。

10
这份标准给医院的启发:高质量数据集建设要从“可发表”走向“可产品化”

过去医院做数据项目,常见目标是课题、论文、模型、报告。
这些目标都很重要。
但如果站在数据资产化和成果转化角度,仅仅“能发论文”已经不够了。

未来医院真正有价值的数据成果,应当能够被持续使用、合规授权、可信交付、版本管理、质量评估和收益分配。
这就要求医院在建设专病数据库、高质量数据集和真实世界数据产品时,从一开始就引入格式标准。


具体来说,医院至少要做几件事:

  1. 建立数据唯一标识体系。
    让患者、就诊、检查、样本、影像、文本、标注结果之间能够形成稳定关联。
  2. 建立多模态数据组织方式。
    不仅管理结构化字段,也要管理影像、病理、报告、文本、随访等数据内容。
  3. 建立专家标注体系。
    把临床专家的判断转化为可记录、可复核、可训练的标签资产。
  4. 建立版本管理体系。
    明确每一次加工、清洗、标注、质控和授权所对应的数据版本。
  5. 建立授权和来源管理体系。
    让每一项数据产品都能说清楚来源、权属、授权类型和使用边界。
  6. 建立可信交付体系。

通过可信数据空间、计算沙箱、TEE或隐私计算环境,实现数据可用不可见、过程可审计、结果可审核。
只有这样,医院的数据成果才不会停留在一次性科研项目里。
它才有可能成为真正意义上的医疗数据产品。

11
这份标准给药企的启发:未来买的不是“数据包”,而是标准化数据产品的使用能力

对药企来说,这份标准同样重要。
过去药企开展真实世界研究,很多时候关注的是能不能找到医院、能不能拿到数据、能不能完成分析。
但在新的合规和数据要素环境下,药企真正需要的是一套稳定、可信、可复核的数据产品使用能力。
也就是说,药企不应该只问医院:
有没有数据?
而应该进一步问:
这是不是高质量数据集?
数据有没有唯一标识?
数据之间能不能关联?
标注是否由临床专家完成?
数据版本是否明确?
授权类型是否清楚?
来源是否可追溯?
是否区分真实数据和生成数据?
能否通过可信数据空间完成计算服务?
能否支撑模型训练、真实世界研究或医保价值评价?
这些问题,决定了药企后续形成的真实世界证据到底硬不硬。

未来药企真正要建设的,不只是单个RWS项目。
而是围绕高质量数据集、可信数据空间和计算服务许可授权,建立持续的真实世界证据生产体系。



12
真正的变化:医疗数据产品正在从“整理数据”进入“工程化生产”阶段


《高质量数据集 格式要求》最大的价值,不是提出了几个字段。
而是把高质量数据集从“经验加工”推向“工程化生产”。


这意味着,未来医疗数据产品建设不能再靠项目团队临时整理。
它需要标准化的数据结构。
需要统一的元数据体系。
需要可追踪的来源。
需要可管理的版本。
需要可说明的授权。
需要可复核的标注。
需要可识别的生成数据边界。
这套规则看起来偏技术,但它背后对应的是医疗数据产品的商业化、合规化和规模化。
没有统一格式,数据很难跨平台使用。
没有元数据,数据很难长期维护。
没有标注信息,数据很难训练模型。
没有版本管理,结果很难审计。
没有授权类型,合作很难合规。
没有来源详情,证据很难被信任。
没有生成数据标志,AI训练很难说清边界。
所以,这份标准真正想解决的,不只是“数据怎么存”。
而是“医疗数据如何成为可信的数据产品”。

13
结语:未来真正有价值的医疗数据产品,一定是标准化的高质量数据集

医疗行业并不缺数据。
医院每天都在产生大量诊疗数据、检验数据、影像数据、病历文本和随访数据。
但这些数据如果没有统一标识,没有关联关系,没有标注信息,没有版本管理,没有授权边界,没有来源追溯,就很难真正进入AI训练、真实世界研究和数据要素流通体系。
未来真正有价值的医疗数据产品,一定不是简单的数据表,也不是一次性的科研数据包。
它应该是一套按照标准建设、经过治理加工、具备专家标注、明确来源授权、支持版本追溯、能够被可信环境调用的高质量数据集产品。
从这个意义上说,《高质量数据集 格式要求》虽然讲的是格式,但它真正推动的是医疗数据产品的底层标准化。

医院未来要做的,不只是把数据整理出来。
而是把数据做成可以被识别、被关联、被授权、被训练、被审计、被复用的标准化产品。


这一步,才是医疗数据从资源走向资产、从资产走向产品、从产品走向真实世界证据生产能力的关键一步。


特别声明:智慧医疗网转载其他网站内容,出于传递更多信息而非盈利之目的,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明智慧医疗网的内容为智慧医疗网原创,转载需获授权。


Copyright © 2022 上海科雷会展服务有限公司 旗下「智慧医疗网」版权所有    ICP备案号:沪ICP备17004559号-5