自 20 世纪 80 年代开始,我国将数据库技术应用于临床病例信息管理,科研专病数据库应运而生。科研专病数据库是指集中管理某种单一疾病或某一研究主题病例信息的数据库,它是临床医生收集整理数据和进行科学研究的重要工具。随着医院信息化的不断深入和广泛开展,医院积累了大量以患者为中心的临床诊疗数据,这些数据面向临床业务,有大量非结构化的文本、影像数据和数据冗余,无法直接用于特定的科研工作,需要进行病例数据的收集整理和结构化。大数据环境下,利用这些数据为临床科研服务是我们面临的挑战和未来发展的方向。
科研数据收集管理现状及存在 的主要问题
建设科研专病数据库的主要目的是帮助临床医生收集整理数据。2017 年底,我们对我院各临床科室收集整理数据的情况进行了走访调研。调研发现,临床科室收集整理数据主要采用电子表格、科研专病数据库和多中心科研专题(专病)数据库三种方式。电子表格可为临床医生在临床业务系统、临床数据、科室未联网的终端设备(如B超)、科室自行收集整理的数据、病案室保存的纸质或扫描件的病例资料中查找、摘录、整理病例数据提供帮助。电子表格因操作简单、熟悉度高而得到广泛应用,但其容易出错,在收集、整理的数据项较多时容易串行,且没有质量检验和医生常用的统计分析功能。为改变这一现状,临床科室和软件开发商合作,开发科研专病数据库系统,通过可视化的病历资料填写人机交互界面,完成数据的录入、修改、保存、浏览、检索查询、统计分析和批量导出。科研专病数据库经过多年发展之后,其功能日益丰富,收集整理的病例主题也多种多样,专业性和实用性得到了临床医生的认可,但由于各专科、各病种的差异,科研专病数据库的结构不同,收集整理的数据项也不一样,科研专病数据库在满足科室多样化的科研数据需求方面起到了一定的作用,但在克服了电子表格局限性的同时,依然存在以下主要问题 :
1) 科研专病数据库系统没有和医院信息系统 (hospital information system,HIS)、 实 验 室 信 息 管 理 系 统(laboratory information management system,LIS)、医 学 影 像 存 档 与 通 讯 系 统 (picture archiving and communication systems,PACS)、 放 射 信 息 管 理 系统 (radioiogy information system,RIS)、 电 子 病 历(electronic medical record,EMR) 等 临 床 业 务 系 统或临床数据库 (clinical data repository,CDR) 集成,无法实现数据的批量导入和数据的同屏对照辅助填写(无数据源),数据的收集整理主要依靠手工完成,存在着工作量大、效率低下等问题,不能支撑大型的科研项目。
2) 临床医生工作任务繁重,难以长期坚持和大范围开展,部分科室委托第三方收集整理数据,存在着数据失泄密风险。
3) 整理后的科研数据分散存储于各个课题负责人或临床医生手中,难以共享利用,造成重复收集和人力资源浪费。除此之外,针对多中心大型科研课题相互协作收集整理共享数据的需求,临床科室通常采用单机版协作和网络版协作两种模式。单机版协作是为每个单位安装单机版的数据库系统,对接各自医院的 HIS 系统,导入和整理自己的临床资料,然后通过存储设备导出上报,实现病例资料的交换和数据迁移。网络版协作是协作单位在线注册登录后通过网页表单,实现数据的导入整理和查询导出,也可通过客户端软件(如QQ)、在线电子邮件系统及微信等,实现数据的填写上报和共享利用。但多中心科研专题(专病)数据库同样存在着数据手工整理上报效率低下等问题,不适应大数据环境下对海量医疗数据快速、高效、高质量地收集与整理的科研需求,严重阻碍了科研工作的有效开展。
科研专病数据库平台建设实践
2016 年,我院成立了医疗大数据中心,针对科研数据收集整理中存在的主要问题,进行了数据集成整合、CRF 表单个性化设计与模板化管理、数据批量导入、自动化及同屏对照辅助填写、数据安全防护等核心关键问题的研究,提出了面向全院各科室,建成高效、灵活、方便、安全、一体化的科研专病数据库系统平台的建设思路。
一体化的科研专病数据库系统平台 体系架构
我院一体化的科研专病数据库系统平台体系架构如图 1 所示。其以 HIS、LIS、PACS 等临床业务信息系统或集成整合后的临床数据库 CDR 为数据源,经抽取 - 转换 -加载 (extract-transform-load,ETL)后 形 成 科 研 数 据 库 (research data repository,RDR)。在 RDR 的基础上,通过CRF 表单设计与制作工具、自然语言处理及数据的辅助填写工具、数据的查询检索和患者病例数据的 360 视图浏览工具的支持,通过胃癌等各病种可视化的 CRF 表单,完成科研病例的筛选和数据的收集整理填写,完成胃癌等各专科各病种科研数据库的建设和科研数据的统计分析及选择性的批量导出,满足回顾性研究和前瞻性研究对病例数据提取和快速准确地查询、统计的科研需求。
数据的集成整合
开展临床科研通常需要把HIS、LIS、PACS 等多个临床业务系统中的数据进行集成整合。目前,以患者主索引为主线,我院已实现各临床业务信息系统数据在医院层面的互联互通和集成整合,建成有临床数据库 CDR,部署在计算机室。为避免开展回顾性研究频繁调用历史数据对数据库服务器、网络带宽和临床业务的影响,我们采用 ETL 的方式,将 CDR 中的数据定时批量地抽取、转换、标准化、归一后加载至科研数据库 RDR 中。对于前瞻性研究,与临床业务系统建立实时的数据采集接口,每当有符合临床研究的病例出现时,实时动态地采集病例数据,加载至科研数据库 RDR 中。RDR 作为科研专病数据库的数据源,部署在医疗大数据中心,以全面、标准、统一的格式整合病例数据并提供统一存储。RDR 与面向临床应用的 CDR 物理隔离,互不影响。
CRF 的个性化定制与模板化管理
科研数据是对病例数据进行抽取和整理后的结构化特征数据,而病例报告表 CRF 正是收集整理科研数据的载体和工具。CRF 的设计与制作涉及内容与结构设计和界面制作。CRF 的内容与结构随科研项目变化很大,每个科研课题收集整理的数据项不同,数据项的呈现结构不同,为此 CRF 的界面制作通常需要采用个性化、可视化、模块化的配置方式,通过鼠标点选和拖拽文本标签、文本框、多行文本、数字文本、单选、多选、下连列表、时间日期、面板、表格等基本控件,完成 CRF 的界面风格、页面布局、属性设置、数据校验规则等相关内容与呈现方式即结构的设定(图2)。
图2 CRF可视化配置界面
设计制作好的 CRF 以文件形式保存,可随时调用修改,以减少 CRF 设计制作的工作量。设计制作好的 CRF 也可保存为模板,以方便重复调用。模板采用“点”、“线”、“面”、“体”的建设思路。“点”是一个个字段名和与之关联的单个控件,如字段名姓名和与之对应的文本输入框。“线”是与某个“点”有逻辑关系的另一个或几个“点”,如“是否吸烟”如果选“是”的话,显示“吸烟多长时间”、“每天吸烟几根”等相关内容,这些内容关联起来形成一个“线”。“面”是把 CRF 表单中的数据项分类后,将多个连续的同类数据项组合为“面”,即一个数据单元或数据模块,如患者基本信息、体格检查、现病史、检查结果、检验结果、手术记录、医嘱用药等数据模块信息等均可作为一个个“面”。“体”是某个病种的 CRF 表单,如非小细胞肺癌CRF 表单、心衰 CRF 表单等。设计制作 CRF 表单可通过直接拖拽、组合基本控件的方式快速生成CRF 界面,也可调用已有的 CRF 文件或模板,通过增、删、改的方式,变已有的 CRF 表单内容为我所用。此方式交互性强,操作简便,制作高效,但较难应对复杂的数据结构和逻辑关系,此时可采用 Excel 表格或 XML 格式的配置文件上传至系统后台的方式,自动生成 CRF 录入界面。该方式适应性好,但需依托医疗大数据中心的 IT 工程师才能完成,对于没有数据库和编程基础的用户有一定难度。以上两种方式各有优缺点,可针对具体情况灵活选择。
病例筛选及数据的自动化 及同屏对照辅助填写
数据集成整合后,基于 RDR,可通过我院研发的多维度数据综合搜索引擎,开展复杂条件、递进式的病例数据查询和科研病例筛选,可实现病例信息的全方位、多维度、统一视图浏览,完成病例数据的全景展示。可通过数据接口和患者ID(IDentity 的缩写,身份标识号码),实现单个或批量入组病例数据的一键式导入,同步完成患者化验报告等结构化客观数据的自动关联填写和数据质量校验,减少手工填写数据至 CRF 表单的工作量,提高了数据收集整理的效率和质量。针对大量需要人工筛选、整理和结构化的检查检验结果及文本数据,可以 RDR 中的数据为参照源,通过对数据项及与之相关的诊疗事件及时间节点的解析,以视图方式将参考数据定位显示在 CRF 输入界面的右侧,通过同屏对照和鼠标点选、双击或拷贝、粘贴的方式,将结构化的表格数据或非结构化的文本数据(如病例报告)筛选、填写至左侧的 CRF 表单中,操作界面如图3、图 4 所示。
图3 数据同屏显示和结构化数据关联对照填写
图4 数据同屏显示和非结构化文本数据关联对照填写
针对患者有多次检查、检验及治疗记录,但每个患者的次数可能都不相同的情况,支持用户在填写记录 CRF 表单时动态添加记录数,支持填报数据项的动态扩展,如患者多个化疗记录的填写。针对未能集成在 CDR 或 RDR 中的专科信息和随访数据,提供手动填写和图片、PDF、Word 及视音频文件的附件上传,在填写 CRF 时可根据需要,选取附件作为参照,补齐缺失的数据项内容,确保病例资料的完整性和可靠性。针对电子病历、检查报告等需要后结构化的内容,可利用我院研发的医学自然语言处理工具进行词性标注、分词、句子边界识别、句法分析、语义识别、指标识别等进行结构化预处理,处理后的结果以结构化的形式保存,并可批量导入科研专病数据库中。
统计分析和数据导出
单病种科研专病数据库建成后,基于 CRF 中的数据项,可采用单表单或多表单自由组合的方式进行病例数据的浏览。平台还提供常规的统计分析功能,可根据选中的字段,选择柱状图、饼状图、折线图、表格等不同类型的统计图表展示预览。针对复杂的个性化统计分析需求,用户可根据设置好的权限,将需要导出的病例数据单表或多表联合导出为R、SPSS、Python 等其他统计分析软件兼容的文件格式,方便临床科研人员用专业的统计分析软件做进一步的统计分析和科学研究。不同的课题研究小组也可利用先前其他课题组已整理完成的科研专病数据库中的数据,经授权后导出,实现数据的共享和再利用,以减少重复收集、重复随访和人力资源浪费。
数据安全
为确保数据安全,按专科病种和用户角色进行用户权限划分和分级授权管理。参照国际通用的健康保险携带和责任(HIPAA)法案对病例数据进行脱敏,防止患者隐私数据泄露,若非特殊需要,对患者的ID、姓名、地址、电话等敏感信息进行转换或做删除处理。采用加密强度较高的算法,确保多中心科研协作通过互联网存储和传输时的数据安全。建立数据提取、导入、导出的申请和审批流程,加强日志管理,实现数据的统一管理和对数据操作的全流程管控。通常情况下,数据只能在医疗大数据中心进行各类操作,不能导出,以确保数据安全。
应用情况
目前,依托我院一体化的科研专病数据库系统平台,已建成心衰、肺癌、胃癌、肝癌、老年共病、急诊创伤等 10 多个科研专病数据库。一体化的科研专病数据库系统平台的建设,缩短了科研专病数据库的建库时间,减少了收集、整理数据的工作量。以胃癌专病数据库为例,过去通过编程方式实现 CRF 表单的设计与制作,需要 1~3 个月的时间,现在通过可视化、交互式的 CRF 表单配置界面,3 d 即可完成。在录入与整理数据方面,胃癌专病数据库共涉及患者基本信息、手术记录、病理报告等 13 个病例数据模块,字段数多达 344个(表1)。
表1 胃癌专病数据库字段填写方法途径
原先手工整理 1 份病例资料通常需要1 h 左右,现在通过一体化的科研专病数据库系统平台的批量导入功能,一次性导入 16 692例历史数据共耗时 5 d 14 h 57 min 18 s,其中 165 个字段(占全部字段数的 48%)通过批量导入、自动计算、基于规则获取数据等方式实现自动填写,无需临床医生手工输入。利用我院的医学自然语言处理工具,处理涉及手术记录和病理报告等非结构化的数据字段 56 个(占全部字段数的 16%),平均每秒处理病例数 12.9 个。剩余的 123 个字段中,79个字段通过同屏对照手工填写的方式完成,44 个字段如随访数据等通过手工填写补充,可在 20 min以内完成。科研专病数据库系统平台为我院高质量、高效率地开展临床研究提供了技术和平台支撑,满足了临床科室多样化的对科研数据的提取需求。
问题与改进方法
在科研专病数据库系统平台建设取得初步成效的同时,我们也清楚地看到了不足:
1) 大量不同时期电子病历文件、检查报告、病理报告等非结构化的内容需要做结构化处理,但针对医学用语的自然语言处理工具还不够完善,特别是对电子病历的语义分析有待加强;
2) 现有的科研专病数据库系统中缺乏随访数据,后续还需和我院正在研发的随访系统对接,补齐科研数据短板,实现随访数据的共享利用;
3) 数据库的维护和应用还不理想,建库容易维护难,课题结束后大部分的科研专病数据库处于无人问津的状态,造成新的资源浪费,需建立长期的数据采集和维护管理及奖励机制,鼓励临床医生和科研专病数据库研发建设的 IT 工程师,坚持不懈,通过持续不断、日积月累的平台功能完善和数据的补充更新,丰富科研专病数据库的内容,彰显和发挥医疗大数据的价值,为临床科研服务。