当前,数据已被视为与土地、劳动力、资本、技术并列的五种生产要素之一,2021年3月和11月,北京国际大数据交易所和上海数据交易所分别成立,短短一年多时间,国内已涌现出30多家数据交易所。
国内医疗健康大数据产业经历了数据产出、数据收集、数据存储、数据加工等早期阶段,已经沉淀了海量数据,数据类型及数据量也将持续增加,但目前医疗数据并未得到有效应用,在数据收集存储之外的数据分析及商业化应用才是产业落地的价值所在。医疗大数据企业可以在“海量数据”与“医疗问题”之间架起一条通路,进入具体的应用场景来解决传统医疗健康领域存在的问题。
医疗大数据产业链及产业现状
医疗大数据是指医疗机构、药企、医生、患者等主体在进行健康管理及医疗行为过程中产生的与医疗健康相关的数据,具有多态性、冗余性、时效性、隐私性及体量大的特点。医疗大数据在形式上包括结构化数据、半结构化数据与非结构化数据;基于数据发生的场所,医疗大数据分为病历、医学影像、随访记录、支付、医保信息、药物研发信息等医疗数据,可穿戴设备、互联网医疗平台等移动医疗健康数据,基因测序与检测类数据等三类。
医疗大数据产业链主要包括基础层的基础设施建设及数据收集、技术层数据存储与处理的大数据平台以及基于各个应用场景的大数据应用。
资料来源:亿欧智库
1、基础层:基础设施建设
医疗大数据产业的本质是对医疗数据进行收集、整理与应用,因此产业构建的第一步,是要在医疗主体内构建数据中心机房,将大量的医疗数据采集下来。普通医院因其数据存储量有限,通常将机房建在院内,建设模式自建机房为主;省级区域数据中心需要将各地数据进行汇总,通常会租用具体场地或租用云服务进行存储。
2021年国家卫生健康委统计信息中心发布的《全民健康信息化调查报告》数据中显示,医院信息化中,我国98.8%的三级医院及96.1%的二级医院均有建设数据中心机房,区域医疗信息化中,所有省级卫生健康委均拥有数据与中心机房,82.3%的市级数据中心拥有机房。目前二级以上医院及市级以上数据中心的医疗大数据基础设施覆盖率达到了比较高的水平,未来的增量市场在于:
由于数据存储量将随时间的推移不断积累,机房所需的物理面积必然随之增加,因此已经拥有数据中心的机构仍存在扩容的需求。
从数据来看,县级医院的数组中心建设基本成型,但仅59.0%的县卫健委拥有自己的数据中心;医院方面,排除二级三级医院外,仍有24.5%的医院没有数据中心,从无到有再到扩容,数据中心建设仍存在一定未被攫取的市场。
云租赁或成市场新增量。未来数据中心的建设方向将由物理空间机房转移至虚拟空间云端,以应对日益增长的数据存储压力,更为重要的是,医疗数据存储的价值在于未来的潜在应用,从这个角度来谈,租赁云将获存在难以估量的市场空间。
2、技术层:大数据平台
建立数据中心是为了将数据完整、全面的存储起来,但存储只是工具,数据挖掘与最终应用,才是信息化建设的最终目的,而在数据应用之前,医疗大数据企业必须突破数据质量和数据挖掘两大桎梏:
20多年医疗IT的野蛮生长在推动医院进行数字化转型的同时,也落下了不少顽疾。从宏观上分析,医疗数据的痛点大致包含信息化厂家和系统繁多,数据孤岛现象严重,数据治理难度高;数据标准化程度低,医院管理者数据治理效率低;临床科研压力大,科研成果产出效率低三个方面。
数据挖掘方面,传统的数据挖掘主要整合医院HIS、LIS、PACS、RIS、病理等常见信息系统的数据,进而建成电子病历系统、临床数据中心(CDR)、电子用药记录(eMAR)等常见数据库,但实际上,这些数据库难以满足研究人员多元的需求。
传统的大数据应用以业务需求为主导,没有平台的支持,每一个超出常见数据库能力的需求都需要信息科或企业经历数据采集、数据清洗的流程,费时费力。而平台化的方式可以将数据治理的流程统一来做,将非体系的需求用体系化的思维予以解决。从理论上讲,医疗大数据平台能够一定程度解决上述两个问题。
平台的本质是服务。所谓医疗大数据平台,可以看作是围绕医疗大数据利用的全过程而提供的服务,包括数据采集、整合、处理、建模分析、展现等。在实际之中,信息化厂商通常会将多种大数据处理工具集合成一个系统,这个系统,就是我们常说到的大数据平台。
医院可以借助于平台的引擎与模型对存储的数据进行规模化处理,解决国内医院信息孤岛问题与数据标准化程度低的问题。在平台的基础上,建设方可以根据医院提出的需求直接调用数据建成专病数据库,解决医院科研投入大、效率低的问题。医疗大数据平台对于行业的意义不仅在于数据的管理,随着数据基础措施逐渐丰满,平台也自然而然地往医疗大数据的应用发展。
3、应用层:医疗大数据的应用
如果能通过一只“无形的手”,对患者、医生、医疗费用支付方、政策制定者的数据进行收集、规划、分享,再将其用于精准医疗、疾病预测、医保控费等等医疗服务,数据的价值难以衡量。运营、临床、科研、健康以及海量的难以归类的数据,每一种数据都隐藏着巨大的市场:
临床数据是目前医院使用率最高的数据,约有21.9%三级医院基于此类数据展开应用研发,企业介入此类数据的空间也非常高,譬如影像类的AI辅助诊断,文本类基于知识图谱训练的CDSS,都已经广泛在医院开展应用。
医院的运营数据可有效协作医院、区域卫生、公共卫生做出决策。譬如DRG支付便是基于医院运行设立的激励机制,而医院大屏则是医院基于大数据进行的自我优化。医院通常无须为运营数据的管理生成独立订单,卫宁健康、易联众等企业将其置于医共体、医联体的建设之中,帮助医院管理人员、耗材、绩效、患者患病情况、患病区域等信息。
健康数据是最大,最具潜力的数据,也是当下应用最为有限的领域,通过健康数据开发应用的医院不足10%。目前,物联网等设备虽然加强了医院对于患者健康数据的收集,但将健康数据和临床数据联系在一起的研究较少,因此健康数据缺乏说服力。好在作为全球最大的慢病管理市场,“互联网+慢病管理”的兴起正在重塑这一赛道的价值。在这个时间节点上,新进入的是百度、京东、阿里等互联网巨头。
多模态数据的融合同样拥有其独特价值,大数据防疫平台便是近两年来愈发火热的应用。比如由平安智慧城市承建、并在广东省内率先上线的地市级公共卫生监测预警平台,通过全面对接市属多家医院、疾控系统、120中心、核酸检测等四大监测渠道,建设了症候群、新冠多点触发上报、药品等七大预警体系,充分依托科技力量实现精准化疫情防控。
总的来说,数据虽是整个医疗大数据链条中最有价值的一部分,但单从应用建设来看,其价值并没有得到充分挖掘。但从另一个角度来思考,尚未被充分应用的健康、科研大数据,有着门槛,也有着难以估计的庞大市场空间。值得注意的是,做应用的企业后续不一定做平台,但做平台的企业,正在纷纷涌下应用。
医疗大数据应用场景与局限性
我们可以从数据流转的方向分析医疗大数据不同类型的应用和场景。在医疗行业,绝大部分数据产生于医疗机构内,例如我们去医院的检验、检查、门诊、住院、医保结算等数据都在医院里面产生,数据最直接的流转是在医疗机构内流动。
除了医院使用数据以外,数据也会通过数据上报或者采集的形式流动到对应的政府机构,包括、卫健委、医保局以及疾控中心等。因此,医疗大数据平台面向的主要场景包括医疗机构、卫健委、疾控中心和医保局。对于不同的场景,其数据的处理方式会存在一些差异,下面按照四个场景进行分析:
1、医疗机构场景
在医疗健康大数据与电子病历评级等政策的强驱动下,各级医院对于医疗大数据平台的采购有比较切实的需求。信息化程度高的三级医院出于电子病历评级、科研论文发表与临床应用的需求来使用大数据平台。对于医院来说,在数据应用方面还存在以下三个问题:
数据质量有待提高,需要加强数据标准化。从医院业务系统直接产生的原生数据,往往是不符合数据应用的模型标准,所以需要使用对应的数据平台将原始数据进行加工和处理。
院内系统数据壁垒未破除,需加强数据共享。在医院内不同的子医院或者不同的科室之间系统和数据存在壁垒,院内数据共享和互通程度低,缺少统一的数据平台。
线上线下医疗数据持续增长,海量数据等待挖掘与利用。随着数据的大量增长使用传统的平台和工具已经不能够满足大数据下的数据挖掘和利用了,需要采取更加先进的技术和理念。
2、区域卫健场景
在2016年,国家发布了《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》明确要实施全民健康保障信息化工程,要全面建成互通共享的国家、省、市、县四级人口健康信息平台。2020年国家卫健委发布了医院信息互联互通标准化成熟度评测方案。目前区域卫健的全民健康信息平台各地都有一些基础的建设,但整体来看仍存在部分问题:
数据使用时数据质量不高。数据采集之后没有形成业务应用的数据标准,数据治理缺乏深度,数据处于谁使用谁治理的阶段。
协同服务层面,虽然开通了部分共享服务接口,但是新接口的扩展还需要再次付费开发,缺少服务的整体配置和数据服务的业务化。
数据准备周太长导致数据应用比较少。一方面缺少统一面向数据应用的标准,一方面缺少统一的数据平台工具,开发一款数据应用数据准备的周期很长。
3、疾控中心场景
新冠疫情的爆发在疾控场景开辟了数据应用的新战场,也让医疗健康行业对数据应用走向了新的阶段。例如我们每天的健康码、核酸检测、疫苗以及在医院的就诊都会产生大量的数据,这些数据需要在疾控中心和卫健委等系统中进行上报、集成、标准化、治理、匹配融合等等数据加工操作,这些操作都是对应的大数据平台上进行。在疾控场景下,数据的处理和应用具有更加个性化的需求:
数据来源更多源。疫情防控中需要融合多种来源的数据,需要解决不同来源的数据标准不统一的问题。
对数据实时性要求高。疫情的防控朝夕必争,是对数据实效性要求非常高的场景,很多来源的数据需要在分钟级别完成数据的获取,完成多源数据的融合以及对外提供快速、高效的数据查询接口,对于大数据处理的引擎和效率有更高的要求。
需要更快、更准、更智能的数据洞察和分析。疫情防控中对于数据的需求不光是更快的融合,更需要从数据中更快的获取到蕴含在数据中的洞察。另外,在防疫这种需要快速决策和响应的场景,这些数据洞察要尽可能地准确。
4、医保场景
2018年5月31日,国家医疗保障局正式挂牌。2020年7月国家医疗保障局印发了《医疗保障信息平台数据归集技术规范》等四部规范的通知,其中《医疗保障信息平台数据中台建设及应用指南》中将数据中台的建设标准规范进行了详细的定义。建设内容包括医保数据数仓建设、数据的归集建设,数据模型管理、数据质量管理、数据共享管理、数据分析等服务的建设。
相对于医疗机构、区域和疾控等医疗场景,由于国家医保局的统一规划,医保信息平台和大数据平台的建设更为靠前,在建设指南出台前期就有阿里、腾讯等互联网公司参与了建设指南的输出,建设的范围和模式跟互联网公司的大数据平台更加贴紧。因此,在医保大数据平台这个赛道,对于互联网公司更为有利。
医疗大数据产业痛点
目前,在各行业如火如荼的期待数据价值加速释放过程中,健康医疗数据的“数据孤岛”现象并没有得到解决,如何开放共享应用依然是一个巨大的难题。在此背景之下,在保护个人隐私前提下使数据有序流动和利用,是激活数据要素潜能、推动数字产业发展的重要一环。
由于医疗行业自身的特殊性,健康医疗大数据产业的“话题热度”始终高于“发展进度”。健康医疗大数据立足于医疗信息化基础,探索布局相关数据的采集、分析和应用。当前行业发展的主要制约因素包括:
技术原因。国内医疗信息化建设始于上世纪九十年代,当时并未有相应的规范和实施细则。不同的医院信息化水平参差不齐,所选用的供应商也五花八门。整个医院信息化非常复杂,除了业务系统外,还涉及到医院的管理与保障系统、就诊管理与服务系统等其他类型系统,整个信息系统大类超过50多种。医院内部的信息化建设也并未从全局上进行统一,医院内部涵盖的诸多子系统往往来自数十家厂商的产品,且不同产品之间的数据端口和格式并不统一。同时,早期技术的限制导致医疗数据质量极差,存在解读难、映射难、治理难的问题。医院要在维持业务正常运作,且保证海量古老格式历史数据可用的前提下进行系统的修正,代价较大却并不能看到眼前的好处。因此,医院并没有足够的动力解决这一问题。
健康医疗数据存在多种接口标准且数据无法统一的重要原因是利益上的考虑。由于掌握了天然的数据入口,这类企业往往依靠接口和标准为生,在漫长的生命周期中源源不断地获得收入。无疑,掌握接口和标准的企业是打通“数据孤岛”的天然对立者,自然对此更没有什么兴趣。
合规风险问题。近年来,我国加强了对数据安全和隐私方面的立法,《网络安全法》《个人信息保护法》和《数据安全法》陆续获批实施,健康医疗数据属于其中的高风险数据,合规风险极高。在没有可实施的细则和先例的情况下,包括政府在内的健康医疗数据所有者出于稳妥的考虑,宁愿数据不可用也不会有任何动力和理由冒着违规风险将数据进行流转。
沉睡的大量健康医疗数据形成了一个个“数据孤岛”,难以得到有效利用,犹如深埋地下的“油气田”,弃之可惜食之无味。这极大地阻碍了产业的发展,并对大健康产业参与各方都带来了掣肘。
对于患者来说,健康医疗数据不互通导致其检查结果在不同医院难以互认,加重医保与居民医疗负担,也无法发挥数据在患者健康管理中应有的作用。对于医疗机构和管理机构而言,数据不互通造成了时间、人力、医保资源的大量浪费,同时缺乏可用数据也使得管理缺乏抓手,医保资金使用效率提升空间极大。对于健康医疗产业来说,以当下热门的医疗AI和数字疗法而言,行业普遍认为,缺乏大量、高质量医疗数据供给拖累了行业的发展。
行业未来展望
医疗大数据的真正落地需要政府、医院和企业三方共同合作实现。在政策的持续推动下,未来各地医疗卫生管理部门、医疗机构将持续加大对医院信息化、区域医疗信息化、公共卫生信息化的投入,企业方需加快搭建基于医联体模式的分级诊疗服务体系。健康医疗大数据行业将在未来2-3年迎来市场爆发,新政策出台将加快健康医疗数据的互联互通,更多基于数据的场景化深度应用将提高医疗服务的效率,多场景的数据分析和应用将带动大健康领域相关产业的发展。
医疗大数据将搭上云计算、人工智能等技术的“高速列车”,海量的医疗大数据也需要强大的计算能力、存储能力与前沿的分析技术。未来,医疗人工智能的实现离不开底层数据作为“原材料”,各应用场景的商业模式也将持续探索,而基于互联互通的医疗大数据处理与挖掘平台是未来的重点建设方向。