欢迎访问智慧医疗网 | 网站首页
 
当前位置:首页 > 医疗大数据

医疗大数据的临床文本处理与知识发现方法有哪些?

发布时间:2024-04-30 来源:森亿AI医疗 浏览量: 字号:【加大】【减小】 手机上观看

打开手机扫描二维码
即可在手机端查看

研究基于医疗大数据的数据处理与知识发现方法,提升对海量临床文本的处理与利用能力。以临床文本数据为主要研究对象,围绕数据准备、文本挖掘、评估反馈的全流程,从知识发现生命周期、文本处理流程以及关键技术等方面,研究基于医疗大数据的数据处理与知识发现方法。基于医疗大数据的临床知识发现具有数据处理、文本挖掘和评价反馈的生命周期,语义标注是临床文本知识关联化的重要环节。基于医疗大数据的临床文本处理与知识发现有助于促进健康医疗服务与创新。

引 言

随着科技的飞速发展,国民生活水平日益提高,健康已经成为当前人们最关心最直接最现实的主要利益问题之一。以健康为导向,积极发展和应用医疗大数据已成为世界各国的重要共识。目前,医疗大数据已经成为我国信息化建设及战略资源的重要内容。


医疗大数据一方面为医学研究和临床实践提供了丰富的基础数据资源,另一方面信息过载又导致现有的研究和实践工作淹没于大数据的洪流之中,为临床知识的获取与利用带来了挑战。如何通过对医疗大数据的深度挖掘、科学组织和有效管理,实现医学信息与知识的充分利用和共享,提高医学决策与管理的效率和质量,是当前医学信息学面临的重要任务。

医疗大数据可以分为三类:结构化数据、半结构化数据和非结构化数据。其中,非结构化的临床文本是医疗活动过程中产生的一类重要的信息资源,也是医疗大数据的重要组成部分。临床数据具有多模态、不完整、冗余和隐私性等特点,且由于表达方式的自由性,临床文本缺乏统一的结构框架,表现出语法结构不完整、包含大量医疗行业习惯用语以及语义模糊等特征,增加了数据处理与分析的复杂度,难以直接进行高效的数据挖掘,从而影响知识发现的效率与质量。

本文以临床文本数据为主要研究对象,重点从知识发现生命周期、文本处理流程和关键技术等方面,研究基于医疗大数据的临床文本处理与知识发现的方法。

知识发现生命周期

基于医疗大数据的临床文本处理与知识发现总体框架如图1所示。首先从临床文本库中提取原始数据,经过数据清洗、数据集成、数据转换、数据归约以及隐私保护等预处理操作,形成文本挖掘的目标数据;文本挖掘包括文本处理和信息抽取两个主要环节;文本挖掘的结果需要通过评估反馈实现迭代优化;知识发现的成果面向实际应用。数据准备、文本挖掘、评估反馈形成了知识发现的全生命周期。


微信图片_20240430163128.png
图1  临床文本处理与知识发现

临床文本处理流程

数据准备

数据提取 知识发现的首要步骤是基于相关的先验知识和应用目标对问题进行定义,以确定文本处理与知识发现的目标。在此基础上,结合知识应用的实际需求,从医疗信息系统的各种临床数据库中选择与临床文本分析任务相关的数据,经过数据提取后,创建形成知识发现任务的原始目标数据集。

预处理 医疗大数据由多种异构数据源组成,来自医院信息系统的原始数据具有数据多样、不完整、冗余、包含敏感信息等复杂特征,难以对其直接分析处理和挖掘。因此,必须对原始数据进行预处理,以确保数据的准确性、完整性、一致性和隐私性。经过预处理的数据的质量将关系到知识发现的结果,高质量的数据更有可能带来高质量的结果,需要合理选择预处理的方法策略。据统计,在整个数据处理过程中,预处理阶段的工作量超过60%。


文本挖掘

文本处理 为了便于从医疗文本中实现对信息的抽取,需要基于自然语言处理的方法对非结构化的医疗文本进行处理。由于中文表达中的词与词之间没有如英文那样有空格标识,且目前机器学习处于有监督的学习阶段,呈现逐渐向无监督学习发展的趋势,而基于监督学习和半监督学习方法的信息抽取均需要标注语料的支持,因此,分词和标注是医疗文本处理的两项首要任务。

信息抽取 信息抽取是自然语言处理的一项重要任务,其目的在于对自然语言文本进行分析,以提取结构化的有用信息。医疗文本中包含有大量的医疗实体(如:疾病、治疗、检查、症状)及其之间丰富的语义关系(如:治疗改善了疾病、治疗恶化了症状、检查证实了疾病、症状表明了疾病)。命名实体识别和关系抽取是临床文本信息抽取的两项重要任务。

评估与反馈
性能评估 需要选择特定的度量参数,在数据挖掘之后,通过实验和测试来评估模型的性能。与此同时,预先选取的度量参数可用于指导和约束知识发现过程。
交互迭代 知识发现是一个反复迭代的过程。对于数据挖掘所得到的模式和知识,需要通过持续的分析、反馈与纠正实现进一步优化,从而获得相对理想的知识模型。例如,基于数据挖掘的结果,分析是否需要从内外部数据源获取更多的数据,或者需要重新对数据进行处理。
知识表示 利用标签云、热力图、树状图等可视化技术直观展示所发现的知识,基于关联关系和时间序列还可实现患者画像。知识发现的结果可用于病历检索、疾病预测、药物发现、临床辅助决策、智能问答、精准医疗以及临床教学等医学应用。

关键技术

数据预处理
数据清洗 数据清洗包括填补空缺值、平滑噪声数据和纠正不一致数据来改善数据质量等任务。由于人工填补数据工作量大且可行性差,可采用贝叶斯和决策树等机器学习方法来预测最佳默认值。对于数据源中的异常属性值,可采用分箱、回归、聚类等平滑噪声数据处理方法。数据的不一致性可通过数据之间的相关性分析来纠正。
数据集成 数据集成的作用在于将多来源的临床文本数据集成至统一的数据存储中,提高数据挖掘的准确性和速度。数据集成需要解决异构数据集成时的表达不一致和冗余数据问题,可通过相关分析来检测,卡方检验是常用的分析方法。
数据转换 数据转换的作用在于将原始数据转换成适合于数据挖掘的统一形式。数据转换方法包括平滑噪声、数据聚合和数据规范化。其中,常用的规范化方法有最小-最大规范化、零-均值规范化和小数定标规范化。
数据归约 基于医疗大数据的文本处理,需要在确保数据完整性的前提下,通过数据归约可获得精简的数据集合,提高数据挖掘的效率。数据归约可采用数据立方体聚集、维度归约、数值归约和数据压缩等方法。其中,维度归约通过去除数据集中的无关变量或属性,可有效控制数据处理的数量,主要技术包括小波变换、主成分分析等。
隐私保护 我国于2011年印发了《电子病历系统功能规范(试行)》,明确了在电子病历过程使用过程中需进行隐私保护。医疗大数据的隐私保护所涉及的技术问题包括数据加密、隐私匿名处理和访问控制等,常用的算法有K-Anonymity、L-Diversity、T-Closeness、差分隐私、同态加密、零知识证明等。

文本处理与信息抽取
中文分词 目前分词技术较为成熟,开源的中文分词系统包括有NLPIR、Jieba、THULAC、LTP、Stanford CoreNLP等。然而,医疗文本在语言表达方面具有独特性,例如,精炼的语句表达要求使得其语法成分不完整,存在大量医学术语、数学符号和英文缩写等。针对专业性要求较强的医疗领域,需要基于先验知识、权威词典、语料库来提高分词的效果。
文本标注 医疗文本的标注需要有标注规范的指导,例如,i2b2 2010的标注规范包括有医疗实体类型、实体间关系以及修饰类型。语料的标注的模式包括传统模式、众包模式和团体模式,均离不开人工的参与,而人工标注是一项耗时耗力的工作,特别是对于医疗领域,需要有较强专业背景知识的专家指导标注。基于少量人工标注数据实现机器自动标注是一种可取的方法,可有效节约标注成本并提高标注效率。标注的效果可通过F值和Kappa值等评价指标来对标注的一致性进行评估。
命名实体识别 命名实体识别是信息提取的重要组成部分,也是医疗文本挖掘的基础。命名实体识别方法主要有基于词典的方法、基于规则的方法和基于机器学习的方法。医疗数据包含大量的医学术语,词典是医学知识发现所需的重要资源,基于词典和规则的方法适用于规律性较强的简单任务,单纯的基于词典和规则的方法难以应对复杂语言的处理要求。基于统计机器学习的方法具有较好的健壮性,其中,条件随机场(Conditional Random Field,CRF)模型在基于机器学习方法中得到广泛应用。随着机器学习的发展,基于CNN、RNN、LSTM等模型的深度学习方法备受关注,该方法同时具备良好的非线性函数拟合能力和强大的序列建模能力。
关系抽取 关系抽取的方法主要有基于共现的方法、基于模式匹配的方法以及基于机器学习的方法。基于共现方法的基本思想是当两个实体出现在同一个句子中时,则这两个实体之间存在关联,且共现的频率越高,则关系越强。基于模式匹配的方法需要基于语言学知识预先构造模式集合,再将经过处理后的医疗文本与之匹配进行关系抽取。对于基于机器学习的关系抽取方法,其中监督学习方法的基本思路是将医疗关系抽取视为分类问题,半监督学习方法主要通过基于少量标注语料来抽取关系,无监督的方法则主要基于上下文信息对语义关系进行聚类,该方法存在一定的盲目性,其性能有待提升。
性能评估 在自然语言处理中,通常采用准确率、精准率、召回率和F值作为方法性能的评估指标。对于面向临床文本数据的分类任务,评估指标还包括受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC)和曲线下面积(Area Under Curve,AUC)。ROC曲线能够全面地展示分类器在不同阈值下的分类性能,纵坐标为真阳率(True Positive Rate,TPR),表示真实的正例中被预测正确的比例,横坐标为假阳率(False Positive Rate,FPR),表示真实的反例中被预测正确的比例。如果分类算法的ROC曲线越靠近坐标平面的左上角,则说明该算法的分类效果越好。为了对分类性能进行更好地定量分析,可以采用ROC曲线下的面积AUC来对分类性能进行评估,分类算法的AUC值越接近于1,表明该算法的预测效果越理想。

结 语

医疗大数据包含有大量有价值的医疗信息,蕴含了与人类生命和健康密切相关的丰富知识,亟待挖掘与发现。为提升对海量临床文本的处理与利用能力,本文以临床文本数据为主要研究对象,从知识发现生命周期、文本处理流程以及关键技术等方面,研究基于医疗大数据的数据处理与知识发现方法。基于医疗大数据的临床文本处理与知识发现具有数据准备、文本挖掘、评估反馈的全生命周期,所提出的方法为后续临床知识应用研究与实践提供指导。


文章来源:胡佳慧,赵琬清,方安,任慧玲. 基于医疗大数据的临床文本处理与知识发现方法研究[J]. 中国数字医学,2020,15(7):11-13,88.


智慧医疗网 © 2022 版权所有   ICP备案号:沪ICP备17004559号-5