随着信息技术的快速发展,各类数据急剧增长,数据资源与自然资源一样,已成为重要的战略资源,人类社会进入大数据时代。大数据时代下的医疗活动,如就诊治疗、医学研究、健康保健和卫生管理等,时刻在产生大量的医疗数据。
医疗大数据是医生对患者进行诊断和治疗过程中产生的数据,包括患者基本数据、电子病历、诊疗数据、医学影像数据、医学管理数据、经济数据、医疗设备和仪器数据等。不断数据化的信息,在使医院数据库信息容量不断膨胀的同时,也对疾病及病人的管理、控制和医疗研究起到了积极的作用,意义重大。
通过对医疗大数据的分析和加工,就可以挖掘出疾病诊断和治疗、公共卫生服务等方面的重要价值。医疗大数据的应用并不仅仅是在信息化时代才出现的。早在19世纪,英国流行病学家、麻醉学家约翰·斯诺(John Snow)博士运用近代早期的数据科学,记录每天的死亡人数和患病人数,并将死亡者的地址标注在地图上,绘制了伦敦霍乱暴发的“群聚”地图。霍乱在过去被普遍认为是由“有害”空气导致的。斯诺通过调查数据的汇总,确定了霍乱的元凶是被污染的公共水井,并同时奠定了疾病细菌理论的基础。可以说,现代医学就是基于数据的医学,是基于大数据的医学。
医疗数据从哪里来?
随着医疗卫生信息化建设进程的不断加快,医疗数据的类型和规模也在以前所未有的速度迅猛增长。医疗大数据主要由结构化数据和非结构化数据构成,且以非结构化数据为主。不过,如此具有特殊性、复杂性的庞大的医疗大数据,其搜集如果仅靠个人甚至个别机构,那基本是不可能完成的任务。那么这些数据到底是怎么产生的?又都来自哪里呢?
经过简单的梳理,这些数据的来源大致可以分为4类。
1、患者就医过程中产生的信息
从患者进入医院开始,在挂号环节便将个人姓名、年龄、住址、电话等信息输入数据库;随后在就医环节,患者的身体状况、医学影像等信息也将被录入数据库;看病结束后,在患者结算的过程中,费用信息、报销信息、医保使用情况等信息被添加到医院的数据库中。这将形成医疗大数据最基础也是最庞大的原始资源。
2、临床医疗研究和实验室的数据
临床医疗研究和实验室的数据整合在一起,将形成庞大的医疗数据集。一张普通的CT影像含有大约150 MB的数据,一张标准病理图的数据量则接近5 GB。如果将这些数据量乘以人口数量和平均寿命,那么仅一个社区医院累积的数据量就可达数万亿字节甚至数千万亿字节(PB)之多。
3、药物研发产生的数据
药物研发所产生的数据是相当密集的,从分子设计到临床试验,每个环节都会产生大量的数据。根据Nature Biotechnology发表的一篇论文,药物研发过程中产生的数据量已经远远超过了天文学、基因组学等领域。该论文中提到,到2020年,全球每年产生的生物医学数据量已经达到2.8 ZB,其中大部分是药物研发产生的数据。
4、智能可穿戴设备带来的健康管理数据
随着移动设备和移动互联网的飞速发展,便携式的可穿戴医疗设备正在普及。各种智能可穿戴设备的出现,使得血压、心率、体重、体脂、血糖、心电图等健康体征数据的监测都变为可能,个体健康信息都可以直接连入互联网。除健康体征数据外,还有其他智能设备收集的健康行为数据,如每天的卡路里摄入量、喝水量、步行数、运动时间、睡眠时间等。由此将实现对个人健康管理数据随时随地的采集,而带来的数据量将更是不可估量的。
医疗大数据有什么特性?
1、大数据的特性
规模巨大的临床试验数据、疾病诊断数据及居民健康管理数据等汇聚在一起所形成的医疗大数据,已然呈现出其作为大数据的特性。
(1)数据规模大
一张CT影像含有大约150 MB的数据,而一个基因组序列文件的大小约为750 MB,一张标准的病理图则大得多,接近5 GB。
(2)数据增长快速
一方面,医疗信息服务包含大量在线或实时数据的分析处理,如临床决策支持中的诊断和用药建议、流行病分析报表生成、健康指标预警等;另一方面,得益于信息技术的发展,越来越多的医疗信息被数字化,而未来,医疗健康领域数据的增长速度还将更快。
(3)数据价值巨大
毋庸置疑,数据是资源,是资产。医疗大数据与每个人的个人生活息息相关,对这些数据的有效利用更关系到国家乃至全球的疾病防控、新药研发和顽疾攻克的能力。
2、医疗大数据将有的特性
除大数据所具有的特性外,医疗大数据还具有多态性、不完整性、时间性及冗余性等医疗领域特有的一些特性。
(1)多态性
医疗大数据包括纯数据(如体检结果、化验结果)、信号(如脑电信号、心电信号等)、影像(如CT影像、MRI影像等)、文字(如主诉、现病史、既往史、过敏史、检测报告等),以及用于科普、咨询的动画、语音和视频信息等多种形态的数据,这是区别于其他领域数据的最显著特性。
(2)不完整性
医疗数据的搜集和处理过程经常相互脱节,这使得医疗数据库不可能对任何疾病信息都能全面反映。大量数据来源于人工记录,导致数据记录的偏差和残缺,许多数据的表达、记录本身也具有不确定性,病例和病案尤为突出。这些都造成了医疗大数据的不完整性。
(3)时间性
患者的就诊、疾病的发病过程在时间上有一个进度,医学检查的波形、影像都是时间的函数,这些都具有一定的时序性。
(4)冗余性
医疗数据量大,每天都会产生大量信息,其中可能包含重复、无关紧要甚至相互矛盾的记录。其中就牵涉到数据的清洗,从海量的医疗数据中清洗出具有价值的医疗数据信息。
医疗大数据走向价值输出
经过数据的原始积累,并逐步走向成熟的医疗大数据,无疑将给医疗带来巨大价值。从应用场景来看,结合了人工智能的医疗大数据已经在辅助诊疗、健康管理、药物研发、医学研究、医院管理方面有了诸多成就。
1、辅助诊疗
通过收集医院各信息化子系统的临床数据,将疾病的表征、患者体征和治疗方式的数据存储起来,建立特定疾病的数据库。再根据数据的智能分析,可以对患者进行多种诊疗措施比较分析,制定有效的诊疗路径,帮助医生进行决策。在辅助诊疗中,人工智能起到了关键的作用,它可以通过对知识的学习,进一步提炼数据的价值。辅助诊疗的应用场景包含一系列辅助诊疗工具,如电子病历、影像组学、智能问诊等。
(1)电子病历
电子病历是以医疗信息学为基础,将以自然语言方式录入的计算机不能识别的病历文本、诊断结果等医疗数据,根据医学语境使用自然语言理解、机器学习、知识图谱技术转换为可存储、查询、统计、分析和挖掘的数据结构。结构化电子病历的优势十分明显。医生在诊疗过程中需要很多相关信息的辅助,最重要的信息来源是患者的各种临床检验、检查数据。这些检验、检查数据汇入疾病数据库之后,能够形成疾病辅助决策支持,进一步指导医生的工作,从而准确地判断疾病,给出诊疗方案。
(2)影像组学
影像组学的概念起源于肿瘤学领域,之后其外延扩大到整个医学影像领域,即从CT影像、MRI影像、正电子发射体层成像(Positron Emission Tomography,PET)影像和单光子发射计算机体层摄影(Single Photon Emission Computed Tomography,SPECT)影像等医学影像中高通量地提取大量影像信息,实现感兴趣区(通常指病灶)图像分割、特征提取与模型建立,凭借对海量影像数据信息进行更深层次的挖掘、预测和分析来定量描述影像中的空间时间异质性,揭示出肉眼无法识别的影像特征。影像组学可直观地理解为将视觉影像信息转换为深层次的特征来进行量化研究。
理解医学影像,提取其中具有诊断和治疗决策价值的关键信息是诊疗过程中非常重要的环节。以往,医学影像前处理和诊断需要四五名医生参与。而基于影像组学与大数据技术,再训练人工智能对医学影像进行分析,只需要一名医生参与质控及确认环节,这对提高医疗行为效率有很大帮助。将影像组学解读为“数据语言”,人工智能辅助阅片作用于疾病早筛及诊断,已经成为医学影像必然的发展方向。
(3)智能问诊
智能问诊是模拟医生问诊流程,与患者进行多轮交流,依据患者的症状提出可能出现的问题,反复验证,给出建议。智能问诊可辅助基层医生进行初步决策;人机对话记录也可作为资料,提高线下就诊效率。智能问诊应用是通过收集与分析海量医疗数据、专业文献,构建医学知识库,经人工智能的产品设计实现的。智能问诊系统在该过程中收集并整理的大量症状描述,又可以作为训练数据优化机器学习成果,从而使智能问诊结果更准确。
大数据还为在线问诊提供了技术支撑。新冠疫情下,对于有发热、咳嗽等不适反应的民众,无法及时准确判定自己是否感染新冠病毒,而如果所有不适的人员均前往医院就诊,势必给医院带来巨大负担,同时也将增加疫情防控工作的难度。此时,在线问诊系统及时解答民众对身体异常情况的疑问尤显必要。平安智慧医疗互联网医院可支持匹配本地医生资源,横向可覆盖疫情自查、疫情动态、疫情分析,以及在线预约、在线咨询、在线诊疗、在线支付、药品配送等全业务场景,纵向可支持慢病管理、孕产服务等专科化服务,助力各级卫生健康行政部门在疫情防控中做好互联网诊疗咨询服务,让人民群众获得及时的健康评估和专业指导。
尽管这些基于大数据的在线诊疗技术距离真正的人工智能医疗还有一定的差距,但至少让我们看到了借助人工智能技术可以极大地改善医疗产业,提高诊疗水平,提升医疗效率,具有实现精准医疗的可能。而随着OpenAI基于大模型语言系统人工智能技术的突破,让人工智能医生的设想不再停留在构想阶段,结合大模型与医疗数据的训练,将在真正意义上打造出超级全科人工智能医生。
2、健康管理
健康管理是指对个人或群体的健康进行全面监测、分析、评估,并提供健康咨询和指导及对健康危险因素进行干预的全过程。健康管理的核心是健康风险的评估和控制。新型健康管理系统是利用云计算、大数据、人工智能技术充分挖掘大量人群健康状态的数据,针对不同的健康状态个性化地干预健康诊断指标体系,可成功地阻断、延缓,甚至逆转疾病的发生和发展进程,从而达到维持健康状态、“治未病”的目的。
过去的医疗大数据应用大多和疾病相关,是对患者的疾病体征、治疗方案等进行数据搜集。例如,对于慢病管理,对患者的行为习惯、用药记录进行智能监护和跟踪。在糖尿病管理领域,微糖就是一家提供血糖健康解决方案的慢病管理公司。微糖通过慢病管理软件收集了海量糖尿病患者的血糖数据,研发完成连接专业医护团队和患者的天雁系统。微糖天雁系统基于亚洲糖尿病基金会超过十年的大数据积累,通过专利算法提供并发症风险的预测和分析。微糖还引进业界领先的动态血糖技术雅培“瞬感”,基于动态的数据分析和服务产品,提供针对糖尿病患者的血糖健康解决方案,帮助患者稳定血糖。
当下,基于人工智能的健康大数据管理更需要侧重于日常健康监测、体检数据、心理数据、运动数据、营养数据及基因大数据。通过实时的数据分析实现健康人的前瞻性潜在健康风险管理,让人不生病、少生病,这是医疗大数据应用的终极方向。基于人工智能的健康管理模型,借助物联网、智能医疗器械、智能可穿戴设备,实时收集人们的健康大数据,通过对体征数据的监控,结合人工智能健康管理模型的监测、模拟、推演,实现真正意义上的健康管理。
基于人工智能的健康管理模型,结合大数据的动态变化数据,给出个性化、有针对性的健康管理方案的关键在于数据质量。在优质数据源的基础上,若能实现随访信息动态记录,则更有助于提升结果准确性、方案专业性,使得企业在这一赛道的竞争中凸显优势。目前,针对某些特定慢性疾病推出的家庭检测包(通常包含可穿戴设备、健康报告)已崭露头角,慢病管理仍是未来一段时间内的热门场景。
当然,核心还在于两个方面:一方面是人工智能健康管理医生,或者健康管理专家模型的打造;另一方面则是基于可穿戴设备的健康管理监测设备的优化与普及。
3、药物研发
在药物研发方面,大数据分析技术的妥善运用,能够全面体现出药物的治疗效果。通过医疗、医药大数据,利用人工智能深度学习能力的算法系统,对研发药物中各种不同的化学物质进行分析,预测药物研发过程中的安全性、有效性和副作用等,可以有效地降低药物研发成本,缩短研发周期,降低药物价格。
与传统的医疗药物作用跟踪相比较而言,大数据分析技术能通过分析临床试验注册数据与电子健康档案,优化临床试验设计,招募适宜的临床试验参与者。通过分析临床试验数据和电子病历,辅助药物效用分析与合理用药,降低耐药性、药物相互作用等带来的影响。通过及时收集药物不良反应报告数据,加强药物不良反应监测、评价与预防。通过分析疾病患病率与发展趋势,模拟市场需求与费用,预测新药研发的临床结果,帮助确定新药研发投资策略和资源配置。
例如,2021年初,德国制药公司勃林格殷格翰(Boehringer Ingelheim)与谷歌量子人工智能实验室(Google Quantum AI Lab)达成重要合作,双方将合力研究与实现药物研发领域量子计算的前沿应用,特别是在分子动力学模拟领域。尽管谷歌在大语言模型技术层面,或者说生成式语言技术层面没有构建绝对的领先地位,但谷歌(包括其母公司Alphabet)在医疗健康领域,尤其是人工智能药物研发领域已经占据一席之地,其业务涵盖小分子药物发现、临床前和临床研究、人工智能驱动的医疗保健、免疫疗法和疫苗开发等多个方向。
尤其是在制药方向,谷歌在AI领域的专业知识使其具有发现候选药物的独特优势。尤其是谷歌的AI在蛋白质结构方面,曾经根据氨基酸序列预测蛋白质三维结构是一项“不可能的任务”,但以AlphaFold2为代表的人工智能却改变了这种局面。2020年,AlphaFold2在第14届国际蛋白质结构预测竞赛(CASP14)中,对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电子显微镜等复杂仪器观察预测的水平。2021年,AlphaFold2成功破解了困扰人类长达50年之久的蛋白质折叠问题,被《科学》(Science)杂志评为年度科学突破。而到了2022年,DeepMind官方网站发布AlphaFold2最新进展:通过与欧洲生物信息研究所[EMBL-European Bioinformatics Institute,EMBL-EBI,欧洲分子生物学实验室(European Molecular Biology Laboratory,EMBL)的一部分]合作,AlphaFold2已经确定了地球上几乎所有已知生物体中大约2亿种蛋白质的结构,并能够预测出98.5%的人类蛋白质结构。
2023年4月20日,美国生物技术公司莫德纳在官网宣布,其与IBM公司达成一项协议,将合作探索使用量子计算和人工智能等下一代技术,加速推进信使核糖核酸(messenger RiboNucleic Acid,mRNA)的研究。根据所公布的协议信息,莫德纳将加入IBM量子加速器计划(IBM Quantum Accelerator Program)和IBM量子网络(IBM Quantum Network)。IBM方面将向莫德纳提供量子计算系统的访问权限,协助其探索和创造新的mRNA疫苗和疗法。另外,IBM的人工智能模型MoLFormer可以帮助科学家们了解潜在的mRNA药物的特征。两家公司将结合最先进的配方与生成式人工智能(Generative AI)来设计具有安全性和有效性的mRNA药物。
这让我们看到结合了量子计算、基于人工智能的药物研发系统,配以先进的生物医药研发技术,将会引发药物从研发、生产到临床的深度变革。这将带领我们人类在疾病治疗上,不仅能够实现个性化的药物定制,而且能够实现快速的药物定制研发、生产和应用。
4、医学研究
在传统的临床研究模式下,不论是提出科学问题,还是实验设计、数据采集、数据处理分析、结果验证,都是一项耗费大量人力、财力和时间的工作,严重制约临床科研成果的产出效率。在大数据背景下,以电子病历数据为主的医疗大数据规范应用,结合数据挖掘、智能化分析方法,为临床科研有效建立了基于真实世界数据和数据挖掘技术的科研思路和科研方法。以数据为重点赋能临床和管理决策,医疗大数据在临床科研中的应用场景不断丰富,如探索疾病关联关系、进行临床预测、建立医疗质量监测评估及助力专科疾病研究等。
(1)在探索疾病关联关系方面
多学科、多维度数据是患者健康信息的主要特点,将离散的数据进行整合与规范化,对大量、关联性的疾病数据进行分析整理,建立疾病、症状、诊断、用药、手术、检查、检验之间的相关关系,形成知识图谱,可以探索疾病的关联关系,进行诊疗效果比较、合并用药研究、疾病特征和患者分析,有利于加深对疾病的了解,拓展科研发现,辅助临床诊断。
(2)在进行临床预测方面
医疗大数据的优势在于有大量的真实世界数据用于模型建立及临床预测。例如,通过统计和展示各类疾病的症状,可以监控疾病的治疗效果和疾病的区域发病趋势,对疾病的发展趋势进行预测,为疾病的精准判断和治疗提供依据。
(3)在建立医疗质量监测评估方面
医疗大数据可满足横向可比及向纵深细化,通过对医院临床和运行数据的综合分析和挖掘,发现医疗质量问题的真相,准确定位原因和指导改进。通过关联患者历史健康数据、检查治疗数据、治疗结局数据,对诊疗过程进行全流程、闭环管理,对比不同疾病症状的用药、治疗效果,为进行临床诊疗效果比较、精细化治疗提供科学依据。同时,伴随数据的积累、利用,有助于进一步提升医疗质量。
(4)在助力专科疾病研究方面
搭建专科疾病数据库一直是科室、医院乃至国家层面的重要需求。在医疗大数据科研平台基础上,搭建专科疾病数据库,能够帮助专科疾病的科研设计、数据收集、既往成果查询、跨科室跨医院协作等科研流程的实现,使专科疾病相关的检查检验数据、随访数据、病例报告表(Case Report Form,CRF)等得到快速收集和高效利用。通过建立专科疾病数据库,大大节约了开展临床科研的人力成本,缩短了科研数据的获得周期,可以帮助医生确定最佳治疗方案。