一、这份文件为什么重要?——三个“第一次”
2026年6月3日,国家数据局正式印发《关于推进行业高质量数据集建设行动的实施方案》,文号国数科基〔2026〕25号。6月8日对外发布。
一张图读懂高质量数据集实施方案
有三个“第一次”——
第一次,在家层面以“数据集”为独立对象作出的系统性部署。不是“数据要素”这个大概念的又一份指导文件,不是“人工智能”发展战略里附带提一句数据,而是专门、聚焦、系统性地部署“高质量数据集怎么建、怎么标、怎么用、怎么管、怎么赚钱”。这在全世界范围内都是首创。
第一次,数据要素和人工智能两个战略领域在政策上完成了“物理对接”。此前,数据归数据局管、AI归工信部管——两个体系在政策上各自发力。这份文件把两件事焊在了一起:“场景牵引数据→数据驱动模型→模型赋能应用→应用创造价值”——16个字定义了一个闭环,把数据从“AI的原料”升级为“AI的引擎”。
第一次,“医疗卫生”在所有重点行业中被放在了第一梯队。文件列出了20个重点行业领域,医疗卫生与科学研究、工业制造并列——从供给、标注、标准、应用、资产化五个维度都做了针对性部署。这意味着“医疗数据集建设”这件事,正式纳入了国家数据局的考核体系。
国家数据发展研究院院长胡坚波在央视的解读中说了一句话:“构建数据要素与人工智能协同演进的共生生态。”共生生态——数据不再是AI的“上游供应商”,数据本身就是生态的一部分。理解了这个定位变化,才能真正理解这份文件的深意。
参考来源:国家数据局 国数科基〔2026〕25号 2026年6月3日印发、6月8日发布;央视新闻 2026年6月8日
—— · ——
二、六大行动是什么?——用医院的场景翻译一遍
文件的核心是六大专项行动。以下为每一个政策行动下面,用医院的真实场景翻译它到底在说什么、跟医院的哪件事对应。
行动一:强基扩容——“你的数据要上桌了”
政策原文的核心表述是:聚焦医疗卫生等重点领域,通过公共数据授权运营、链主带动、多模态融合等方式,大幅扩大高质量数据集供给规模。
翻译成医院能听懂的话:国家已经意识到,AI大模型缺的不是算力、不是算法——缺的是“高质量的真实数据”。而中国最丰富、最独特、最不可替代的医疗数据就躺在公立医院的机房里——未经加工、未经标注、未经授权、无法使用。强基扩容行动要做的就是三件事:告诉医院“你的数据是国家战略资源”(不再只是你院的业务记录),给你“一套合规路径”把数据拿出来(公共数据授权运营),让你“和产业链上下游一起干”(链主带动)。
对医院意味着什么?你不能再把“数据出不去”当作理由。国家层面正在铺设“出去的路”——从合规框架到基础设施。你院的数据,要么你自己治理好了主动上架,要么等别人来帮你治理后上架。不管哪条路,数据都要动起来。
行动二:标注攻坚——“医生,你的专业能力值钱了”
政策原文的核心表述是:推动标注从“以人为主”向“人机协同、专家深度参与”转变,建立行业专家认证机制,梯次布局数据标注创新试验区。
翻译:目前的医疗数据标注主力是两种人——兼职做的临床医生(一天标注50张CT片就顶天了),和完全没有医学背景的第三方标注员(分不清磨玻璃结节和实性结节)。两种模式都不可持续。文件提出的“专家深度参与”模式,实际上是给全国三甲医院的临床专家打开了一条新的专业价值变现通道——不是让你去当廉价标注劳动力,而是让你以“认证专家”的身份参与标注规则制定、难例判定、质检抽检——做的不是你一天能标多少,而是你的判断能指导多少人去标。
对医院意味着什么?每个专科的顶尖专家都可以是“数据标注专家”——这是一个新的专业身份,也是医院参与数据产业链的核心竞争力。你的专家参与了标注规则制定,将来这个专科的数据集标准就由你来定义。谁定义标准,谁就掌握定价权。
行动三:提质增效——“你家数据能不能过国标?”
政策原文:推进格式、类型、标注、质量测评等国家标准研制,打造AI-Ready高质量数据集,实现“一次测评、全国互认”。
翻译:目前全国医疗数据集的质量标准是缺失的。北京同仁医院的眼科数据集、千佛山医院的肝病数据集、巴彦淖尔临河区的医共体数据集——每家用的标注规范、格式标准、质量评价方法都不同。AI公司买回去训练,每家数据集都要单独做格式转换和清洗,成本极高。“一次测评、全国互认”的目标就是建立一套国家标准,数据集只要通过一次测评,拿到全国通用的质量认证,就能在任意一家数据交易所挂牌、被任意一家AI公司直接使用。
对医院意味着什么:谁先主动对标国标(哪怕国标还在研制中),谁的数据集就先用上“国家标准”的标签。在数据市场上,“符合国标”本身就是溢价能力。临河区人民医院为什么能1077.2万入表?因为它走完了质量测评流程(基于GB/T 36344的二级指标)。台州肿瘤医院为什么能拿5000万授信?因为它的肺癌数据集通过了浙江省数知通平台的质量验证。
行动四:应用赋能——“数据不是卖一次,是持续赚钱”
政策原文:打造“场景—数据—模型”数据飞轮,建设数据赋能工场,常态化举办供需对接活动。
翻译:“数据飞轮”是一个极其重要的概念。它回答了一个困扰所有人的问题:医疗数据交易为什么都是一次性的?千佛山医院肝病数据集卖了3万——卖了就没了,没有持续收入。数据飞轮的逻辑是反过来的:数据不是卖给AI公司就结束了,而是“数据进了模型→模型用在场景里→场景产生新数据→新数据继续优化模型”——在这个闭环里,医院作为数据源头,理论上应该从每一次飞轮转动中持续获益。
对医院意味着什么:从“卖数据包”转向“服务持续收费”。不是一次性把你的电子病历打包卖给AI公司,而是把数据做成可调用的服务——AI公司每次调用你的数据来训练或微调模型,就按Token计费。这不只是商业模式升级,它直接决定了你的数据资产有没有持续的、可验证的现金流——而持续现金流,是数据资产ABS入池的核心条件。
行动五:管理服务——“国家帮你搭了一套高速公路”
政策原文:建设国家数据集管理服务系统,落实三权分置制度,坚持伦理先行与公平普惠。
翻译:6月8日同步上线的国家数据集管理服务系统——这是全国首个国家级的数据集登记、管理和服务平台。什么意思?过去你的数据集要挂牌交易,可能要去北京大数交易所、贵阳大数交易所、深圳数据交易所分别登记,每家标准不同、互不认可。现在国家层面建了一个“总枢纽”——“物理分散、逻辑集中”——数据集可以存在本地,但登记、管理、查询、交易在国家平台上一站式完成。
对医院意味着什么:降低交易摩擦成本。在以前,一家县级医院的数据集想卖出去,需要自己去找买方、自己谈合规条件、自己拟合同——专业能力和谈判地位都不够。国家平台上线后,数据集登记→质量测评→挂牌交易→资金结算,整个流程有标准可依。小医院的数据也能上桌了。
行动六:价值释放——“你家数据值多少钱,市场说了算”
政策原文:探索词元(Token)交易模式,鼓励数据集挂牌交易、质押融资、作价入股、资产证券化。
翻译:这是六大行动中离钱最近的一环。政策明确点出了四种数据集的商业化路径——“挂牌交易”(你直接卖)、“质押融资”(拿数据去银行抵押借钱)、“作价入股”(用数据资产入股合资公司)、“资产证券化”(把数据资产打包发行ABS)。
对医院意味着什么:医院的数据资产变现路径,第一次在国家政策层面被完整地画了出来。不是“以后可能会有”——是“现在就可以做”。五河县中医院已经质押融资了500万、台州肿瘤医院已经凭数据拿到了5000万授信、北京同仁医院眼科数据集已经在北京大数交易所挂牌了。前三个是一对一的“非标融资”,第四个(资产证券化)是整个链条的终点——也是六大行动给2028年设定的目标之一。
参考来源:国家数据局 国数科基〔2026〕25号;央视新闻、财联社 2026年6月8日报道
—— · ——
三、医疗数据的大方向:四个判断
六大行动是一张全国性的“施工图”。落到医疗数据这个具体赛道上,可以做四个判断——
判断一:医疗数据集将从“医院的自选动作”变成“规定动作”
政策文件用的是“聚焦”和“加快”——不是“鼓励探索”,不是“试点实施”。从4月15日征求意见稿到6月3日正式印发,只用了不到50天。六大行动给出了2028年底的目标节点——也就是说,从今天起算只有两年半。医疗卫生被放在20个重点行业的首位——这意味着医疗领域的数据集建设面临的是最紧的考核节奏。
一个信号值得关注:“模数共振”行动(工信部+国家数据局,2026年4月)已经要求每个行业提炼不少于5个通识高质量数据集、30个高价值场景,8月中期评估、11月成效总结。现在数据局又出一份更系统、更长期的实施方案。两份文件叠加,医疗卫生已经被“双重锁定”为数据集建设的重点行业。医院如果还觉得“这是信息科的事”或者“等政策落地再说”——等到2027年国标出台、同行已经挂牌了,再追就晚了。
判断二:竞争的焦点不是“你有多少数据”,而是“你的数据有多不可替代”
文件反复强调“高质量”三个字。不是“大数据集”——是“高质量数据集”。一字之差,逻辑完全不同。“大”拼的是规模和成本——谁的电子病历覆盖患者多、谁的数据采集成本低。“高质量”拼的是不可替代性——你的数据集是不是某个病种的“独家”、你的标注是不是由该领域最有发言权的专家完成的、你的数据是不是覆盖了罕见病理和边缘病例。
这对医院的启示很明确:与其建设“全病种、浅覆盖”的泛化数据集,不如聚焦一个你们院最擅长的专病——同仁医院选了眼科、台州肿瘤医院选了肺癌、千佛山医院选了肝病——把这一件事做到全国最好。协和超声AI从5亿张影像中精选2.45亿张的核心逻辑,不是“数据多”,而是“质量高到不可替代”。在数据市场上,一个全国领先的单病种数据集,比十个平庸的全病种数据集更有商业价值。
判断三:Token计费+挂牌交易将成为医疗数据集的主流商业模式
六大行动的“价值释放”专项明确提出了Token交易和数据集挂牌交易。这不是空话——青岛数据集团已经发布了全国首个Token计量收益分配体系,引入加权系数(高血压×1.2,肌肉萎缩症×3.0)。不同病种、不同质量的数据,1个Token的价值不同。
Token计费解决了医疗数据商业化中最核心的矛盾——“数据价值的差异性”。同样是一条就诊记录,罕见病的含金量远高于常见病;同样是影像数据,有病理金标准对照的远高于无标注的。一张CT片的Token价格,应该根据病种稀缺度、标注深度、随访完整度、合规认证等级综合定价——这就是六大行动所说的“可量化、可定价”的数据价值体系。
对医院的商业启示是:你的数据集不只是“卖断”——它可以变成一种“按用量持续收费的数字化服务”。AI公司每训练一次模型调用你的数据,你就获得一笔Token收入。这不仅解决了“卖一次就没了”的持续性收入问题,更是满足了数据资产ABS对“连续12个月以上稳定现金流”的硬性要求。从“卖数据包”到“收Token费”,是医疗数据商业化的关键一跃。
判断四:医疗数据行业将出现“基础设施层”和“专病精调层”的分化
六大行动中“强基扩容”和“管理服务”两个行动,本质上是在搭建全国性的数据基础设施。国家数据集管理服务系统就是这条高速公路的主干道。“提质增效”和“标注攻坚”则是在解决“高质量”的供给侧瓶颈。
对医院而言,这意味着两件事:第一,基础设施层(数据登记、质量测评、挂牌交易、Token结算)由国家统一建设——医院不需要自己搞一套交易平台,接上去就行,成本大幅降低。第二,专病精调层(病种专病库、专家标注、多模态对齐、临床反馈对齐)是医院真正的竞争高地——基础设施大家共享,数据质量各自竞争。谁家的专病数据集最权威、最全面、最不可替代,谁就在这一层拥有定价权。
2026年5月湖北省成立健康医疗大数据产业联盟,首批发布了46项数据供需清单——本质上就是为了解决“谁有什么数据、谁需要什么数据”的信息不对称问题。这种联盟模式就是上述分化的一个雏形:联盟是基础设施层的组织形态,各医院的数据集是专病精调层的竞争资产。
参考来源:国家数据局 国数科基〔2026〕25号;湖北省数据局 sjj.hubei.gov.cn 2026年5月9日;青岛数据集团 Token体系发布
—— · ——
四、医院现在该做什么?——一份不看后悔的“三件事清单”
六大行动是2028年底的目标时限。但“模数共振”行动的中期评估是今年8月、成效总结是今年11月。时间很紧。以下三件事,不管你的医院在哪个省份、什么级别,今天就可以开始做——
第一件事:搞清楚“我有什么数据”
不是IT资产管理——是数据资产摸底。你们医院有哪些数据?先列大类:电子病历(门诊+住院)、检查检验数据(检验科+影像科+病理科)、体检数据、科研队列数据、药品进销存数据、医保结算数据。每一类标清楚:数据来源系统、大致体量(多少万条/多少TB)、覆盖时间范围、更新频率、数据敏感等级。
这件事不需要技术投入——只需要信息科科长和病案室主任坐在一起,花一天时间画一张表。但这张表是你后面所有动作的基础。你能挂什么牌、融多少资、价格定多少——都取决于这张表上的资产清单。
第二件事:选一个“拳头产品”
不要试图一下子把所有数据都做成产品。选一个你们院最擅长的方向——是眼科的影像数据?心内科的随访数据?肿瘤科的基因组数据?还是全院的药品流通数据?这个方向最好满足三个条件:第一,你们院在这个病种上确实有学科优势(同行认可、数据体量大);第二,数据结构化程度相对较高(降低加工成本);第三,商业场景清晰(有人愿意花钱买——是保险公司、AI公司还是药企)。
选定方向之后,集中资源做三件事:数据清洗和标准化(对照未来大概率成为国标的质量测评框架)、专家标注(让你们院最好的专家来做标注规则和质检)、合规确权(在数据交易所完成登记、获得产权证书)。这三件事做完,你就有了一个可以在市场上“说话”的拳头产品。
第三件事:找到“对的人”——提前进入生态
六大行动反复强调“链主带动”和“联合体”。意思很清楚:这件事不是一家医院单打独斗能做的。你需要找到三种伙伴——
技术伙伴(帮你做数据治理和标注的平台公司——电科一华路、医渡科技、兰丁智能等都在这个赛道上)。
场景伙伴(最终为数据付费的人——保险公司、AI制药公司、医疗影像AI公司)。
金融伙伴(帮你的数据资产做估值、做质押、做证券化的机构——银行、担保公司、券商)。
如果你的医院在湖北——加入湖北健康医疗大数据产业联盟。在江苏——关注苏州三医协同创新可信数据空间。在山东——对接北方健康医疗大数据中心。在广东——接入广州卫生健康可信数据空间。在10个财政部成本归集试点省市——主动争取成为试点单位。不要等国家平台建好了再上车——现在能上什么车就先上去。
参考来源:国家数据局 国数科基〔2026〕25号;财政部财会〔2026〕5号;湖北省数据局 sjj.hubei.gov.cn;江苏省卫健委
—— · ——
五、写在最后:这场游戏的门票是“高质量”——不是“大规模”
用国家数据发展研究院院长胡坚波的解读来收尾。他说,这份方案直击了三个梗阻:“训练数据供给质量低、标注标准乱、场景适配弱”。而解决方案的支点只有一个——“高质量”。
对于中国的公立医院来说,这是一个历史性的价值重估窗口。过去几十年,医院的数据躺在机房里,是一种“会占存储空间的管理成本”。2026年6月3日之后——准确地说,从这份文件生效之日起——医院的数据正式被界定为“国家战略性AI训练资源”。定位变了,价值就变了。
但拿到这张价值重估的门票,有一个硬性条件:你的数据必须是“高质量”的。六大行动的每一项——强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放——背后都是同一个逻辑:“高质量才有资格上桌”。
本文信息来源:国家数据局《关于推进行业高质量数据集建设行动的实施方案》(国数科基〔2026〕25号)全文;央视新闻 2026年6月8日;财联社 2026年6月8日;国家数据发展研究院院长胡坚波解读;财政部《关于开展公共数据资源治理成本归集试点工作的通知》(财会〔2026〕5号);湖北省数据局(sjj.hubei.gov.cn);江苏省卫健委;巴彦淖尔市人民政府(bynr.gov.cn);浙江省知识产权研究与服务中心(ziip.org.cn)。截至2026年6月8日。
特别声明:智慧医疗网转载其他网站内容,出于传递更多信息而非盈利之目的,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。
凡来源注明智慧医疗网的内容为智慧医疗网原创,转载需获授权。