数字信息技术和“互联网+”的飞速发展,医疗卫生行业也随之进入了空前的大数据时代。作为卫生事业健康发展的新基建,健康医疗大数据在引领医疗卫生事业高质量发展,提升群众健康素养等方面具有重要的研究价值。我国目前仍处在健康医疗大数据应用的落地实践阶段,近年来,我国出台多项文件用于推动健康医疗大数据平台建设、应用与发展[1]。目前,部分省市建设了本省的数据平台,实现了从基层医疗卫生机构到三甲医院的互联互通和数据共享[2]。但由于各机构数据源端上报的数据质量参差不齐,使得汇总后的医疗健康大数据的可靠性无法获得保证,进而无法达到准确的分析要求。因此,未能被充分地挖掘和利用。本研究从我国健康医疗大数据质量控制难点出发,提出针对性的解决办法,达到优化健康医疗大数据质量,提升其利用价值的目的。
一、健康医疗大数据的定义与特点
健康医疗大数据在《国家健康医疗大数据标准、安全和服务管理办法(试行)》中定义为,在人们疾病防治、健康管理等过程中产生的与健康医疗相关的数据[3]。涉及大众全生命周期的生理、心理、疾病预防诊断和健康管理等多个领域,适用于与健康相关的预测数据挖掘、促进医疗资源配置优化等[4-5]。按来源可将其分为临床大数据、健康大数据、生物大数据、运营数据、医学知识库[6-7]。
健康医疗大数据具有传统大数据的大容量、高速、多样、准确、可变和高价值特点外,还具有安全性、复杂性、隐私性等特点[8]。随着我国医疗数据信息化的蓬勃发展,除了医疗机构日常诊疗和医学检查产生的数据外,各级医疗机构都在谋划构建自有的医疗信息操作系统,不少医疗机构拥有多个不同类别的业务系统,且不同系统的数据存储差异性较大。且由于医疗数据包含很多患者和医务人员重要的私密信息,一旦泄露后果严重,因此对隐私性保护要求极高。
二、健康医疗大数据质量管理现阶段存在的问题
只有高质量的健康医疗大数据才能为临床诊断、科学研究、医院管理和政府决策提供科学、有效的数据支撑。如果数据本身存在问题,即便借助再强大的数据分析工具,也只能是“垃圾进,垃圾出”[9]。
▌ 数据问题
我国健康医疗大数据存在完整性不高、精准性差、利用度低等质量问题,原因分析如下:首先,健康医疗数据结构丰富多样,主要包括结构化数据、半结构化数据和非结构化数据三类,结构化数据主要为患者基础信息、医学诊断数据等;半结构化数据主要为出院记录等;非结构化数据主要为影像检查、实验室检查等。不同数据结构间转换缺少统一标准,使得数据整合时难免会产生偏差和错误;其次,健康医疗数据来源丰富,各级各类医院都建设有自己的信息系统,不同的软件在系统构架、数据接口和传输标准上存在差异,且医院间的数据共享滞后,存在数据孤岛问题;加之,数据采集过程中精细度缺乏,医务人员在进行数据录入时,由于录入习惯及重视度问题,可能存在数据录入前后不一、缺失、错误等情况;再次,数据采集设备的局限性也会导致数据准确度降低,数据采集设备自身设计缺陷及外环境干扰,也会发生数据冗余、缺失和错误等问题,如前置机出现故障或者网络中断,会造成数据上传出现中断,从而导致数据的丢失;最后,区域卫生信息平台虽已建立,但未能实现全方位覆盖,对于社会属性、经济属性等相关信息的获取仍有难度,导致数据完整性不够,以上情况均使得汇聚端数据质量无法保证[10]。
▌ 专业人才配备问题
无论是专业技术公司还是医疗机构都缺少正规的健康医疗大数据人才团队,也极少有医疗机构专门设立医疗大数据质控部门。作为交叉学科的产物,健康医疗大数据平台的管理与应用需要跨学科、跨领域的相互协作,从对大数据平台的底层设计再到海量、多样健康数据的清洗、整合、质量管控、挖掘和分析都需要包括医学、计算机、流行病与卫生统计学、卫生管理等专业人员共同完成。目前,我国各专业间知识壁垒较高,对数据认知也存在差异,缺乏相关对大数据的管理专业人才的综合培养,因此使得健康医疗大数据发展缓慢[11]。
▌ 健康医疗大数据标准体系待完善
目前,国际上有很多组织机构正在积极推进健康医疗大数据统一标准的建立,其中包括美国国家标准与技术研究院、大数据工作组、数据管理和交换技术委员会等[12]。我国针对医疗大数据质量的相关技术标准正在逐步确立,相继出台了一系列办法和措施,包括《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》[13]、《国家健康医疗大数据标准、安全和服务管理办法(试行)》[14]、《关于印发全国医院信息化建设标准与规范(试行)的通知》[15]、《国家卫生健康委办公厅关于印发全国医院数据上报管理方案(试行)的通知》[16]、《关于引发电子病历系统应用水平分级评价管理办法(试行)及评价标准(试行)的通知》[17]等,强调大数据质量管理的重要性,但涉及各级医疗机构数据标准化治理细则仍有待完善。
三、健康医疗大数据质量管理方案
数据的高质量是健康医疗大数据有效挖掘的关键,针对现阶段医疗数据质量不高的问题,本文将在全面数据质量管理理论的基础上,提出健康医疗大数据全生命周期的质量控制策略,开展从数据传输、处理和应用的全闭环数据质量的控制优化流程,见图1[18]。
图1 健康医疗大数据质量管理框架
▌ 数据传输控制
对数据传输过程中的数据接口、传输校验规则和数据融合处理等流程进行实时监测评价,衡量各环节对数据质量的影响,及时调整传输策略,从源头把控数据整体质量。
首先是对数据源连接进行测试,检查网络是否联通,接口是否开放,配置信息是否完善等。连接成功,配置抽取规则后,进行数据的自动抽取,按照统一的数据结构进行标准化,检查校验可以测试数据源是否畅通,以及数据格式是否转换正确。同时,实现对患者的唯一身份识别,采用交叉索引机制,利用患者特有身份信息进行编码,并与身份证号、社会医疗保险卡上的编号、居民健康卡号等建立交叉索引,并采用人脸识别技术验证,从而实现患者不同区域间的医疗数据融合。
随着传输数据总量的不断提升,对于传输过程中的损耗,段平利用运用区块链及分层加密技术进行数据传输控制,通过核心控制电路、逆变器、斩波器等设备,联合IMIX报文,设计满足控制需求的区块链文本,并按照单向数据函数标准,将数据信息转化成明文状态,完成控制钥节点的托管处理,实现信息参量的无损传输[19]。
▌ 数据处理控制
可分为数据的清洗与核查。首先对数据进行初步清洗,包括去重、异常值和缺失值填补、前后逻辑矛盾处理等。对待清理的数据进行重复判断,对重复记录进行标记并删除;如果字段缺失或为空值,则进行相应的补充或忽略;然后对字段进行异常值判断,对错误数据进行删除或更正,替换特殊符号等;最后进行前后逻辑判断,对出现逻辑问题的数据进行标记和替换。进行每一步处理的同时,统计重复记录、缺失或空值字段、异常字段的占比情况[20]。
对清洗完成的数据进行质量核查,可从及时性、完整性、准确性和一致性进行评价[21]。及时性考察的是医疗机构数据上传是否符合时效、对接是否畅通,用及时率进行统计。完整性反应数据整体缺失情况,指在数据传输、存储或清洗的过程中未出现丢失,将原始数据和最终存储数据进行数据量及分布情况进行对比,用完整率进行统计。准确性指数据取值是否在规定阈值内,用准确率进行统计。一致性指各节点数据前后需保持一致,用一致率进行统计。
▌ 数据利用评价
考量数据对临床科研、辅助诊疗、政府决策、疾病预测等方面的实际利用价值,定期查阅文献及组织专家对数据评估和验证,对利用度不足或严重偏差的数据予以修正,使之符合深入挖掘的数据要求,进而实现健康医疗大数据的有效利用。
▌ 综合分析评价
本研究建议采用加权TOPSIS法对收集的指标进行综合评价,运用秩和比分档法对评价结果分档。TOPSIS法原是一种常用在系统工程中进行多目标决策的统计分析方法,已广泛应用于经济效益评价、工业方案决策及医学科研等各个领域[22]。
具体评价步骤如下。①通过专家咨询法确定各评价指标及相应的权重;②建立原始矩阵:假设有i家医院,j个评价指标,获得i×j数据矩阵。③指标转化:进行低优指标的高优化转换,相对指标用差值法,绝对指标用倒数法。④根据公式(1)对指标进行归一化处理。⑤将归一化数据加权,得出加权归一化矩阵。⑥确定最优和最差方案:Z+和Z-分别表示指标中的最大值和最小值。⑦根据公式(2)和(3)计算欧式距离和。⑧根据公式(4)计算Ci值,将Ci从大到小排序,得到各医疗机构数据质量综合排序结果。⑨运用秩和比分档法对评价结果分档。将加权TOPSIS法的Ci值作为秩进行编秩,求出RSR,计算累计频数和累计频率,求得Probit值,最后以Ci作为因变量,Probit为自变量构建回归方程,参考最佳分档原则及合理分档数表进行上、中、下分档[23-24]。同时配合纵向的趋势分析,精确掌握各医疗机构的实际数据质量情况及变化趋势,提出针对性的整改建议,同时不断优化和完善自身评价体系。
▌ 数据安全
医疗数据相较于其他数据更具隐私性,健康医疗大数据的泄露不仅对公民个人会造成了严重侵害,也会对国家安全和社会稳定构成威胁,因此在全生命周期的医疗健康大数据开发和利用的同时需要严密防范隐私泄漏,保证数据的安全性[25-26]。国家制定的《国家健康医疗大数据标准、安全和服务管理办法(试行)》中有规定,我国公民的医疗数据要在保障公民知情权、使用权和个人隐私的基础上进行规范管理和开发利用[27]。在信息安全技术—健康医疗数据安全指南中也列明了相关有针对性的安全措施[28]。
在数据质量管理过程中,加强数据中心和设备的安全,避免自然灾害和意外情况的发生,杜绝人为破坏、窃取信息等;综合运用防火墙、漏洞扫描、入侵检测等网络安全技术和网页防篡改、数据加密技术等应用安全技术增强数据安全性;制订数据安全工作规范,安全责任落实到人,增强对相关人员的约束机制[29]。
▌ 人才培养和团队建设
国家应加大满足各级医疗对健康医疗大数据复合型高层次人才的需求,增加专项资金投入,制订交叉学科人才培养机制;积极推动数据质量标准体系建设,通过行政手段打通医疗数据壁垒,将医疗数据与公民档案数据、民政数据和教育数据等进行数据共享,从而保证数据的完整性;医疗机构应组建健康医疗大数据的质量管理团队,团队里应包括临床工作人员、软件工程师、数据分析师、管理人员等,对现有数据采集、分析流程进行标准化管理,明确相关人员职责,定期组织业务人员技能培训,强化医疗数据责任意识,并将数据质量管理落实到日常工作考核中,从管理层面上加强对数据质量的把控。
四、总结
数据质量的高低直接关系到医疗数据的使用价值。健康医疗大数据质量管理方案从源头出发,深入各个数据处理环节,快速、直观地反映数据优劣,全方位改善数据质量,有效提升医疗健康大数据价值,为后续的应用提供有力的数据支撑和保障。
本文提出全生命周期的健康医疗大数据质量控制方案,细化各个数据处理环节,将加权TOPSIS法运用于健康医疗大数据质量控制指标评价中。国内虽已有学者针对健康医疗大数据质量问题提出了自己的建议和改善措施,但在侧重点和具体实施细节上与本研究不尽相同。马国耀等[2]提议将数据质量的优化过程落实到数据处理的各个环节中,但在数据质量评价层面未提及具体的指标评价方法。卫荣[7]主要从医疗机构和卫生行政管理层面出发,强调通过加强标准体系建设和完善管理规范实现医疗大数据治理,未涉及各环节具体质量控制策略。张弘政等[20]从数据结构标准化层面探讨基于通用数据模型将健康医疗大数据转换为通用格式,并应用统一术语,从而提升多中心健康医疗大数据质量。叶清等[11]通过分析我国健康医疗大数据的问题,并提出了相对应的建议,但文中未阐明数据处理过程中的各阶段应采取的具体技术措施[11]。
健康医疗大数据直接影响公众生命健康,因此必须加强对数据质量的控制和管理,在更大范围开展跨学科的交流合作,尽快建立统一的健康医疗大数据治理模板,促进健康医疗大数据健康发展[30]。
利益冲突声明:本文所有作者均声明不存在利益冲突。
[参考文献]
[1]柴国荣,汪佳颖.“健康中国”战略下医疗健康大数据的价值挖掘与实现[J].电子政务,2022(6):99-110.
[2]马国耀,孙勇韬,马玉玲.数据校验技术在医疗健康大数据质量控制中的应用分析[J].中国卫生信息管理杂志,2016,13(4):417-419,429.
[3]国家卫生健康委员会.关于印发国家健康医疗大数据标准、安全和服务管理办法(试行)的通知[EB/OL].(2018-07-12)[2023-05-11].http://www.cac.gov.cn/2018-09/15/c_1123432498.htm?from=singlemessage.
[4]Alrahbi DA,Khan M,Gupta S,et al.Challenges for devel-oping health-care knowledge in the digital age[J].Journal of Knowledge Management,2022,26(4):824-853.
[5]许虹.健康医疗大数据:看当下,谋发展[J].中国卫生,2020(7):104-105.
[6]杨朝晖,王心,徐香兰.医疗健康大数据分类及问题探讨[J].卫生经济研究,2019,36(3):29-31.
[7]卫荣.健康医疗大数据质量治理研究[J].中国卫生质量管理,2020,27(3):5-8.
[8]石晶金,于广军.健康医疗大数据共享关键问题及对策[J].中国卫生资源,2021,24(3):223-227.
[9]谷斌.信息系统建设中的数据质量管理体系研究[J].情报杂志,2007(5):65.
[10]张涛,宗文红,蔡佳慧.区域卫生信息平台数据质量管理初探[J].中国卫生信息管理杂志,2012,9(6):7-9.
[11]叶清,刘迅,周晓梅,等.健康医疗大数据应用存在的问题及对策探讨[J].中国医院管理,2022,42(1):83-85.
[12]Shilo S,Rossman H,Segal E.Axes of a revolution:chal-lenges and promises of big data in healthcare[J].Nat Med,2020,26(1):29-38.
[13]国务院办公厅.关于促进和规范健康医疗大数据应用发展的指导意见[EB/OL].(2016-06-21)[2023-05-11].http://www.gov.cn/zhengce/content/2016-06/24/content_5085091.htm.
[14]国家卫生健康委员会.关于印发国家健康医疗大数据标准、安全和服务管理办法(试行)的通知[EB/OL].(2018-07-12)[2023-05-11].http://www.cac.gov.cn/2018-09/15/c_
1123432498.htm?from=timeline.
[15]国家卫生健康委员会办公厅.关于印发全国医院信息化建设标准与规范(试行)的通知[EB/OL].(2018-04-02)[2023-05-11].http//www.nhc.gov.cn/guihuaxxs/gongwen12/201804/5711872560ad4866a8f500814dcd7ddd.shtml?eqid=fdca2cab00213f13000000066427097c.
[16]国家卫生健康委员会办公厅.国家卫生健康委办公厅关于印发全国医院数据上报管理方案(试行)的通知[EB/OL].(2019-04-19)[2023-05-11].https://www.fy.gov.cn/openness/detail/content/5cd36f3f7f8b9ad21a8b45a1.html.
[17]国家卫生健康委员会办公厅.关于印发电子病历系统应用水平分级评价管理办法(试行)及评价标准(试行)的通知[EB/OL].(2018-12-03)[2023-05-11].http://www.gov.cn/xin wen/2018-12/09/content_5347261.htm.
[18]Hyppönen H,Saranto K,Vuokko R,et al.Impacts of struc-turing the electronic health record:a systematic review pro-tocol and results of previous reviews[J].Int J Med Inform,2014,83(3):159-169.
[19]段平.基于区块链及分层加密技术的数据传输控制系统设计[J].计算机测量与控制,2020,28(10):76-80.
[20]张宏政,刘迷迷,李琳,等.基于通用数据模型的健康医疗大数据平台数据治理研究[J].医学信息学杂志,2022,43(6):2-7,13.
[21]张行.健康医疗智能数据治理系统设计与实现[D].济南:山东大学,2021.
[22]宋佳伟,曾诚.加权TOPSIS法在医疗评价中的应用[J].中华医院管理杂志,2019,12(35):12-13.
[23]田凤调.RSR法中的分档问题[J].中国卫生统计,1993,10(2):26-28.
[24]蔡战英,金明广,谢作楷加,等.权TOPSIS法在均次费用控制效果评价中的应用[J].卫生经济研究,2013(5):40-43.
[25]郭子菁,罗玉川,蔡志平,等.医疗健康大数据隐私保护综述[J].计算机科学与探索,2021(3):389-402.
[26]侯梦薇,兰欣,邢磊,等.隐私保护技术在健康医疗大数据发布中的应用研究[J].中国数字医学,2020,15(2):92-94.
[27]国家卫生健康委员会.关于印发国家健康医疗大数据标准、安全和服务管理办法(试行)的通知[EB/OL].(2018-07-12)[2023-05-11].http://www.cac.gov.cn/2018-09/15/c_1123432498.htm?from=timeline.
[28]国家标准化管理委员会.信息安全技术—健康医疗数据安全指南[EB/OL].(2020-12-14)[2023-05-11].https://op-enstd.samr.gov.cn/bzgk/gb/newGbInfo?hcno=239351905E7 B62A7DF537856738247CE.
[29]王春秀.智慧医疗背景下公民健康医疗数据保护机制研究[D].长春:吉林大学,2021.
[30]张振,杨翠湄,徐静,等.健康医疗大数据应用发展现状与数据治理[J].医学信息学杂志,2022(7):2-8.
文章来源:中国医药导报2024年2月第 21卷第6期
文章作者:林 洁 周 健