健康医疗数据的飞速增长,促使医学领域进入“大数据”时代,伴随精准医学的发展,医学研究的重点更加精细、深入,逐渐集中于亚专业和专病。基于真实世界数据的临床研究成为医学高质量发展的新动力,临床研究专病数据库对于支撑临床研究,促进医院高质量发展的重要性也日益凸显。如何建立一个靠谱的专病数据库是当下重点关注的问题。
◆ ◆ ◆
在国内一般语境中“电子病历系统”是指狭义电子病历系统,即在医生工作站负责生成门急诊住院病历病程记录的信息系统,电子病历数据和影像报告系统对报告内容的存储一并被称作医院信息系统中的“非结构化”数据。电子病历系统用非结构化数据存储在保持临床描述灵活性和数据存储层次准确性上取得良好的平衡,在HL7的CDA临床文档标准中也采纳了这种存储格式。而在医学科研领域,出于支持观测指标定量分析的目的,要求进入科研的病历数据全部转化为结构化格式存储。初期最常用的办法就是通过研究人员阅读临床病历,提取有用信息填写CRF表格的方式完成临床病历数据向医学科研病历数据的转化。这样一来,如何跨越2个完全不同的数据结构,从庞大的电子病历文档库中抽取有研究意义的临床科研病例数据补充入科研病例数据库,成了医学研究人员留给信息化人员的挑战。
◆ ◆ ◆
并非所有临床数据都是非结构数据,例如患者基本信息、医嘱、诊断、就诊信息、检验报告这样来源明确、数据源头为结构化数据的数据领域。非结构数据主要是电子病历系统中的病程记录、出院记录、个人史、既往史、家族史、生命体征、体格检查、月经婚育史、主诉现病史;检查报告系统中的病理报告、分子免疫标志物、辅助检查、专科检查和综合检查类;治疗数据中的放射治疗、手术治疗和肿瘤药物治疗。
◆ ◆ ◆
首先,需要解决业务系统数据库表结构识别,字段内容识别和标准数据字典转化工作,这一步数据处理可以通过传统ETL技术完成。在此阶段完成后,部分对照关系明确,前期结构化采集的数据可以写入专病数据库。这部分可以通过映射完成转换数据,主要包括患者人口学信息、就诊记录、检验报告、医嘱记录,以及检查报告、手术记录、治疗记录中的时间、项目名称、执行科室等字段。其次,需要通过结构化算法从自然语言文本中抽取和转化一部分数据,这部分工作需要用NLP算法工具实现,也是专病数据库数据处理的重点内容,其中包括来自EMR系统的主诉症状、手术史、家族史;来自RIS系统的肿瘤部位、最大直径;来自病理系统的肿瘤病理学分型、病理分化程度等数据字段。最后,一部分数据处理逻辑更加复杂需要加载临床规则工具,利用多源头数据逻辑计算得出。这部分字段包括ASA分级、体重指数、就诊年龄、ICU住院天数等项目。
◆ ◆ ◆
医院电子病历、检查报告系统的数据规范性和完整性问题。由于临床科室病理书写中病历模板不够统一,病历录入中结构化程度不高,病历书写内容较为随意,造成病历数据录入不规范,不完整全面的问题。科研专病数据库受限于“巧妇难为无米之炊”,由于部分数据不完整而影响了整个病例研究的可用性。医院随访数据管理的存在短板,前期一直游离在医院信息系统总体规划之外的科研随访数据,系统散乱、数据来源不一的问题。随访数据作为临床数据的补充,是专病数据库数据内容的重要来源,因此,医院应规划建立统一的科研随访平台,规范随访流程和随访数据管理。