我们今天能够收集和存储大量与患者相关的数据。这些“大”数据通常是电子病历(EMR)系统的一部分,通常结合人口统计、临床和生物信息。它们还可以包含图像(例如超声心脏图像)和生理波形。这些数据可以用简单的描述性方法进行分析,以报告有关患者特征和结果的基本信息,如住院死亡率、发病率和住院时间。这种方法对基准测试和研究很有用,不需要人工智能。
数据分析过程中的另一步包括使用机器学习(ML)算法(人工智能的一个子领域),这些算法已被训练来检测疾病状态或不良事件的特定模式。截至目前,大多数被批准用于医疗用途的ML创新都是在成像(放射学和病理学)领域开发的。使用大型图像数据库训练算法确实相对容易,这样它就能够检测出医学实习生或经验丰富但分心的临床医生可能会错过的异常情况。在这方面,已经设计了许多ML算法来分析胸部x射线和CT扫描,并提出诊断(例如,气管导管没有正确定位在机械通气患者的胸部x射线上,或者CT扫描图像提示ARDS患者患有新冠肺炎)。最近,ML算法也被应用到超声波机器中,以促进和自动化护理点超声心动图评估。
已经训练了几种ML算法来识别心脏图像,并引导用户正确握住和定位他们的经胸探头。这样的算法还能够对图像质量进行分级并标记心脏结构。图1中显示了一个示例。一些ML算法可以自动进行超声心动图测量。例如,autoVTI算法可以识别心脏的5腔心尖视图,在左心室流出道中自动定位脉搏波多普勒卡尺,并在短时间窗口内记录主动脉下速度时间积分(VTI)(图1)。最近的一项临床评估表明,autoVTI算法可以帮助受训者像超声心动图专家一样高效地使用超声波估计VTI、脑卒中量(SV~VTI x Pi)和心输出量。还开发了几种ML算法用于左心室射血分数(LVEF)的自动估计。比较研究表明,与专家手动测量相比,它们可以使新手更准确、更具再现性地测量LVEF。其他超声算法已被设计为通过下腔静脉呼吸变化的自动量化来预测机械通气患者的流体反应性,或通过肺B线的自动量化检测肺水肿。总之,ML算法在帮助新手进行治疗点超声心动图评估方面的价值已在几项临床研究中得到证明。然而,鉴于接受过超声心动图培训的重症监护医生的比例正在急剧增加,人工智能创新是否有必要增加超声血流动力学评估的数量和质量仍有待确定。
在寻找无袖带和连续血压监测技术的过程中,已经提出了ML算法来通过分析光体积描记术(PPG)波形来估计血压及其变化。历史上,PPG波形是由医用级脉搏血氧计记录的,但如今它们经常从智能手表、粘性贴片、光学手镯、戒指或智能手机摄像头中获得。其中一些主要用于检测或随访慢性高血压患者的设备已获准用于医疗用途。最近的独立临床评估表明,他们可能并不总是能够检测到生理性夜间血压下降或血压的治疗变化。事实上,这些设备需要频繁的重新校准,并且有可能在短时间内跟踪血压的变化,而不是测量绝对值。有趣的是,这不会阻碍它们在手术期间、ICU患者甚至医院病房中的使用,以检测低血压和高血压发作,并使用参考临床方法(例如示波臂袖法)触发间歇性血压抽查。在这些设置中,参考方法不仅用于确认血压的变化,还用于重新校准算法。如上所述,ML算法可以检测明显疾病状态的特定模式。它们还可以被训练来检测与疾病前状态相关的模式或在特定不良事件发生前观察到的模式。例如,已经开发了多种ML算法来创建分数(例如eCART或HAVEN分数),预测在常规医院病房住院的患者的严重不良事件。几项研究表明,这些人工智能得出的分数能够预测ICU入院、心脏骤停和死亡,曲线下面积(AUC)约为0.8-0.9(提醒一下,随机猜测的AUC为0.5,而完美预测的AUC则为1.0)。然而,当不能简单地与现有评分(如改良预警评分(MEWS)或国家预警评分(NEWS))相比时,它们的预测值通常仅略高,这两种评分都很容易通过生命体征抽查计算出来。已经进行了多次尝试,以在早期发现败血症,加强治疗管理并改善患者预后。截至目前,败血症“嗅探器”实施计划的结果一直存在冲突,一些报告称抗生素和住院死亡率的时间减少,而另一些报告,包括最近对EPIC系统的评估(在美国广泛使用),据报道,在预测败血症发作方面的辨别力(AUC 0.63)和校准较差。另一个潜在的ML应用是强化学习。它能够开发旨在提供动态治疗建议的算法,这些算法已被证明与改善器官功能和/或存活率有关。这种规定性算法是否会被临床医生(尤其是败血症管理专家)接受,并可能改善临床结果,目前尚不清楚。还开发并提出了机器学习算法来预测术后发病率和死亡率,据报道AUC可能超过0.9。然而,这种预测值并不总是能克服简单分数(如SORT分数)所能达到的效果。值得注意的是,临床医生的主观预测已被证明与0.89的AUC相关。因此,是否需要复杂的ML评分来预测术后结果仍然存在争议。最近提出了机器学习算法来预测血液动力学不稳定性,更具体地说,预测系统性低血压。低血压预测指数(HPI)是根据动脉压波形的分析计算的市售ML衍生的得分。它已被证明可以预测术中低血压5-15分钟,AUC范围在0.75-0.95之间。然而,最近的出版物强调了一个事实,即HPI只是平均动脉压(MAP)的反映,因此,其预测价值可能并不优于MAP监测。总之,机器学习算法的预测价值是无可争议的。然而,与现有和更简单的方法相比,其优越性往往有待确定,因此复杂性/效益和成本/效益比可能会受到质疑。
预测分析的陷阱
预测分析至少与四个主要限制和/或陷阱有关,如图2所示。
第一个是相信一切都是可预测的。正如陈和阿施在一部著名的《新英语》中所强调的那样。J.Med.社论(Chen和Asch 2017),“再多的算法技巧或计算机能力也无法挤出不存在的信息”。Alphabet的子公司谷歌X报告称,其在脑电波数据中发现抑郁症和焦虑症生物标志物的举措没有达到目标。考虑到他们拥有几乎无限的资源和一支从事该项目的顶级计算机科学家队伍,脑电波数据很可能根本不包含他们想要的预测信息。此外,有些事件本质上是不可预测的。例如,哪种算法可以预测与手术损伤(例如,肝脏手术中的腔静脉损伤)或决定用丙泊酚推注加深麻醉或镇静有关的低血压?在手术和ICU中,多种外部因素容易在一个方向或另一个方向上改变临床轨迹。当不存在稳定状态时,预测短期临床轨迹变得具有挑战性。其次,糟糕的数据质量是阻碍医疗保健大数据革命的主要因素之一。这种限制通常被概括为“垃圾进,垃圾出”。事实上,人们可能会使用最好的预测算法,但如果我们给它提供错误的数据、伪影和/或阻尼的生理波形,那么在逻辑上可能会得出错误的预测。第三,重要的是要理解预测并不一定意味着预防。当预测之后没有一个或多个容易改变临床轨迹的适当行动时,从逻辑上讲,没有什么是可以预防的。在迄今为止发表的最大规模的HPI随机对照试验中,麻醉师在警惕低血压风险的情况下未能预防低血压事件。有趣的是,他们中的大多数人似乎没有必要和/或权利给那些血流动力学仍然稳定、只有低血压可能性的患者服用液体、血管升压药或止痛药。这一发现很好地说明了临床医生不愿信任和遵循人工智能的建议。第四,概率的处理存在风险。因此,人们可能很难想象从治疗的角度来看是积极主动的。当预测败血症时,可以通过进行细菌样本检测,或者当预测临床恶化时,可以升级监测(例如,通过提供持续监测和/或ICU入院)。这样做没有害处。可能会带来经济后果,但不会对患者造成伤害。相比之下,给败血症患者服用抗生素或给低血压患者服用血管升压药可能有风险,因此值得怀疑。对于可能永远不会发生的预测疾病或不良事件,谁会接受已知副作用的治疗?如果出现并发症,谁来负责?大数据、人工智能,更具体地说,机器学习算法是医学期刊和科学活动的热门话题。对于初创企业来说,它们也是筹集资金非常有用的关键词。然而,人们可能会承认,截至今天,从实用的角度来看,人工智能大象在麻醉学和重症监护领域生下了一只老鼠。前瞻性临床试验是必不可少的,不仅可以评估人工智能创新的安全性,还可以证明其优于现有和更简单的方法。在数字医学时代,尽管许多医学生渴望从事人工智能项目并参加数据马拉松,但提醒他们“提高护理质量的直接挑战不是发现新知识,而是如何将我们已经知道的知识融入实践”可能会很有用。因此,尽管我们应该对人工智能创新睁大眼睛和耳朵,但我们也应该继续关注已知可以提高患者结果和满意度的基本举措(更多的护士和医生,更好的模拟培训,更好地遵守现有指南,以及更好地使用现有监测工具)。
ICU Management & Practice, Volume 23 - Issue 4, 2023