“健康中国”背景下的健康医疗大数据发展
健康医疗大数据是大数据在医疗领域的一个应用分支,主要指在人们疾病防治、健康管理等过程中产生的与健康医疗相关的数据。健康医疗大数据产业是指以与健康医疗相关、满足大数据基本特征的数据集合为核心,进行数据获取存储、分析和应用的服务业态。健康医疗大数据是国家重要的基础性战略资源,是未来健康医疗服务发展的重要趋势。
根据健康活动的来源划分,医疗健康大数据可以分为医疗大数据、健康大数据、生物大数据、经营运营大数据四个方面。
大数据的“4V 特征”,即海量(Volume)、高速(Velocity)、多样(Variety)、真实(Veracity)。
健康医疗大数据的三个特征,即高度专业性与广泛全面性并存、强人格属性与公共治理价值并存、数据形态非结构化与结构化并存。
健康医疗大数据可以划分为健康生活大数据、健康医疗服务大数据、医疗医药保障大数据、环境与安全大数据、健康产业大数据、配套与管理大数据六个方面的大数据。
健康医疗大数据分析方法体系框架模型,由目标层、类型层、分析方法及工具层、应用层四部分组成,如图1所示。
目标层,对健康医疗大数据进行目标性区分,根据数据的复杂程度和价值两个维度,将目标层分成描述型分析、诊断型分析、预测型分析和指令型分析四个层面。
类型层是对数据类型进行划分,包括定性数据和定量数据,并进一步细分,而后又可从线性、非线性以及结构化、非结构化四个方面进行数据类的分类。
分析方法及工具层分为三部分:①分析方法层,根据明确数据特征的健康医疗大数据选择相应的分析方法类别,包括分类、回归、聚类、关联规则、神经网络、Web数据挖掘、深度学习、集成算法等;②典型算法层,根据实际情况选择具体的分析算法进行分析,包括决策树、支持向量机等;③分析工具层,依据相应需求选择适合的分析工具进行数据结果可视化展示,包括Excel、SPSS、SAS、BMDP等。该层是将数据与应用紧密结合的重要分析层。
应用层,根据健康医疗大数据的具体应用领域进行划分,包括医疗服务、公共卫生、药品管理、医疗保障、卫生管理、产业发展这六大层面。
我国健康医疗大数据的发展现状
我国健康医疗大数据技术在短期内取得了较快的发展,以医疗信息化市场的统计数据为例,2009年至2017年我国医疗信息化市场规模增速保持在20%以上的较高水平。健康医疗大数据目前的发展现状可以概括为战略先行、国家统筹、产学研协作、高效落地。文章将从战略规划、治理现状、研究现状、应用现状予以概述。
为进一步推动和规范健康医疗大数据行业的发展与应用,2016年6月,国务院发布第一个健康医疗大数据行业的正式文件——《关于促进和规范健康医疗大数据应用发展的指导意见》,提出到2020年建成100个区域临床医学数据示范中心,健康医疗大数据相关政策、法规、标准体系不断完善,健康医疗大数据应用发展模式基本建立,产业体系初步形成、新业态蓬勃发展。
赛迪CCID统计,2021年我国大数据分析市场下游行业中,金融、政府、电信和互联网位居应用领域前四名,市场占比分别为19.1%、16.5%、15.2%和13.9%,合计超过60%;其他重点行业主要包括健康医疗、交通运输、工业、电力,市场占比分别为8.8%、6.8%、6.0%和5.6%。
从应用现状来看,我国健康医疗大数据目前的应用布局可以概括为“1+6+X”,也就是一个国家数据中心,六个区域数据中心,和若干个地方性的应用和发展中心。一个国家数据中心是指建立容纳全民健康数据的国家健康医疗大数据中心,这对于打破信息孤岛困境具有重要作用;六个区域数据中心是指福建、江苏、山东、安徽、贵州、宁夏六个国家健康医疗大数据中心与产业园建设国家试点;“X”个地方中心是指在一个国家数据中心和六个区域数据中心的影响下,各级地方建立当地的健康医疗大数据技术应用和发展中心。
2020 年 2 月,中央全面深化改革委员会第十二次会议中指出,“要从保护人民健康、保障国家安全、维护国家长治久安的高度,把生物安全纳入国家安全体系。”生物安全涉及公共卫生、生物技术研发、人类遗传资源与生物资源,甚至包括防范生物武器和生物恐怖的威胁。这几个方面恰是大数据技术能发挥重要作用的场域,涉及这些方面大数据的泄漏、盗用和滥用等行为,将给国民健康乃至国家安全造成极大的负面影响。
相比传统基础设施建设的代表“铁公机”,“新基建”主要是指以5G、数据中心、人工智能等为代表的数字化信息技术的开发与运用相关的基础设施建设,通过构建数字经济时代的关键基础设施,实现经济社会数字化转型。在对产业领域的贡献上,“新基建”强调对教育、医疗、社保等民生消费领域的升级,借此既扩大内需,又切实保障居民生活生平的提升。
我国目前的健康医疗现状距离“健康中国”目标的全面实现还有差距。就健康医疗大数据技术发展过程中所面临的困难而言,目前主要有专业人才短缺、技术推广障碍、数据共享困难、安全隐私保护四个方面的挑战。
“健康中国”战略提高了我国政策制定的要求,也深化了健康医疗大数据的内涵。“健康中国”背景下的健康医疗大数据突破了以往医疗专业机构诊疗数据的局限,覆盖了健康医疗、公共卫生和其他影响全民健康的领域。在数字经济社会转型的过程中,要充分认识到健康医疗大数据的战略资源定位,更要意识到其在实现“全民健康”“数据安全”和“新基建”目标中的重要作用。发展健康医疗大数据必然要面对诸如安全隐私保护的相关问题,但在采取相应防范措施的前提下,健康医疗大数据技术的发展给全民健康所带来的“利”要大于“弊”。如何在健康医疗大数据技术的发展过程中应对这些问题和挑战,是数字经济时代给我们提出的新考验,我们无法通过拒绝技术发展去回避这些问题,只能用更多的勇气和谨慎去应对挑战。
2022年11月,《“十四五”全民健康信息化规划》发布,规划从顶层设计的角度,将拉动医疗软件的下一轮的全面升级。该规划提出按照行政区属的架构建设医疗健康大平台和大系统,采取“国家和省两级部署,国家、省、市、县四级应用”总体框架,建立统一的云基础设施。这项政策将成为未来五年健康医疗大数据发展的指导性文件,带来长期的和潜力巨大的健康医疗大数据市场机会,预计未来两年内我国健康医疗大数据市场规模增速约为40%,保持高速增长的趋势,到2028年,行业市场规模可超1500亿元。
健康医疗大数据分析方法应用领域 通过湖北省卫生健康委课题《湖北省医疗健康大数据挖掘整合和服务管理规范研究》的调研发现,健康医疗大数据分析方法在医疗服务、公共卫生、药品管理、医疗保障、卫生管理、产业发展等应用领域均发挥着重要作用。现根据项目调研情况将健康医疗大数据在各应用中的分析过程划分成影响因素分析、流程管理、结果评价、预测判断、决策预防五个部分,利用分类、回归、聚类、关联规则、神经网络、Web数据挖掘、深度学习、集成算法等大数据分析方法,对不同应用领域的健康医疗大数据进行分析处理,健康医疗大数据分析方法应用领域如图2所示。
支持向量机(SVM)在高血压中医辩证中的应用
健康医疗大数据之间存在错综复杂的非线性关系,支持向量机(SVM)模型具有较强的泛化能力,适用于小样本分类及高维输入单输出的非线性回归问题。使用SVM算法进行高血压病辨证分析,根据符合高血压病诊断的419例患者资料读取数据集,以高血压病中常见的21个症状、舌苔及舌体、脉象的量化数据为输入进行特征设计,将高血压病证型作为输出,并进行归一化处理,把属性缩放到[0,1]之间。基于MATLAB环境,选取Libsvm支持向量机集成工具包,使用Python直接导入SVM模块并选择RBF核函数,使用419例样本训练,130例样本测试。构造5个2类分类器,训练得到最优参数C=2和γ=1,建立基于SVM的肾气亏虚、痰瘀互结、肝火亢盛、阴虚阳亢和其他5种证型的高血压病患者中医证候诊断模型,并用测试集和交叉验证集比较所建模型的诊断识别率。
根据SVM模型测试与临床诊断结果比较结果显示,5种证型准确率均高于66%,除其他外的4种主要证型准确率均高于85%,总体准确率达到90%。说明基于SVM建模对高血压病进行中医证候诊断分析具有很高可行性,可以提高诊断准确性和及时性,在高血压病中医辅助辩证过程中具有良好的应用前景。
SVM对训练样本的数目要求较低,在较小规模数据集上训练即可得到较好泛化效果,且模型清晰,便于对分类结果做出解释,但也存在一定局限性。一是对模型输入特征设计要求较高,设计者需对所研究背景有深刻认识,当特征设计不充分时模型精度较低;二是可扩展性差,同一模型无法兼容多项研究数据,需针对不同需求设计不同特征。
【引用本文:章雨晨 陈敏.华中科技大学同济医学院医药卫生管理学院[J]. 中国数字医学,2021,16(1)104-106.】《健康医疗大数据分析方法体系框架及应用研究》
2023年9月,为贯彻落实“数据二十条”决策部署,充分发挥国家健康医疗大数据中心在卫生健康行业高质量发展战略中的国家级平台作用,进一步激发数据要素价值,建立跨层级、跨区域、跨行业的数据资源开发应用体系,由山东省卫生健康委员会发起成立国家健康医疗大数据开发应用联盟。联盟贯彻落实“数据二十条”决策部署,以推动健康医疗大数据事业高质量发展为宗旨,围绕丰富应用场景、促进数据流通、激发要素活力、构建交易体系、壮大产业规模、加强人才培养等方面开展工作。