欢迎访问智慧医疗网 | 网站首页
 
当前位置:首页 > 信息 > 海外

美国医学会杂志(JAMA):人工智能在医疗领域的三个迭代

发布时间:2024-03-13 来源: 智药局 浏览量: 字号:【加大】【减小】 手机上观看

打开手机扫描二维码
即可在手机端查看

当前,人们对人工智能的兴趣和热情空前高涨。


而关于医疗领域的人工智能,我们不得不面临以下问题:在何处、何时和如何部署AI,以及如何理解其风险、问题和可能性。


但首先,需要理清楚人工智能在医疗领域的三个时代:专家系统、深度学习和大模型时代。


而基础模型和生成AI代表了AI能力的一场重大革命,为改善医疗提供了巨大潜力。今天,医疗领导者正在就人工智能做出决策。

AI 1.0:符号AI和概率模型


在最初的50多年里,大多数人工智能都专注于将人类的知识编码成机器的规则。你可以把它想象成很多很多的“如果-那么”规则或决策树


这一具有象征意义的人工智能取得了一些显著的成就,例如IBM的DeepBlue在1997年击败了国际象棋世界冠军。


在医疗保健中,INTERNIST-I等工具旨在代表有关疾病的专家知识,以帮助处理病例。今天,许多电子实现的临床路径在决策树中编码专家知识。


象征性AI也有关键的局限性,特别是在其构建过程中存在人类逻辑错误的风险,以及在其规则中编码的偏见,因为它的知识库完全依赖于创造它的人。


但也许最重要的问题是,从经验上看,象征性AI具有基本的能力限制,在面对真实世界的情况时显得脆弱。


作为回应,研究开始更多地关注概率模型,如传统回归,然后是贝叶斯网络,这使得专家知识和经验数据都有助于推理系统。


这些模型对真实世界情况的处理更优雅,在医疗保健中也有一定用途,但在实践中难以缩放,并且管理图像、自由文本和其他复杂临床数据的能力有限。


AI2.0:深度学习的时代


研究更多由数据驱动的方法,也就是被广泛称为机器学习的方法,其根源在于,智能的关键在于从错误中学习。


在2010年代初,一场真正的革命发生了。


随着数据集的增长和计算机的加速,具有多层神经网络的深度学习开始崭露头角,AI 2.0时代开始了。


首先,卷积神经网络架构赋予计算机“看”的能力,它们获得了对照片中的图像进行分类的能力(比如“猫”vs“狗”)。其次,一项名为word2vec的发现创造了大规模使用文字进行数学运算的能力。


这场革命改变了我们日常生活中的许多事情。如今,在手机上搜索数千张照片,而不需要手动为每张照片贴上标签,这已经是一件微不足道的事情了。


一个人可以在100多种语言之间进行翻译,无论是通过打字,还是用相机对着用一种他们不知道的语言写的文字。


深度学习还让新事物在医疗领域变得实用。《美国医学会杂志》(JAMA)十年来最具影响力的一篇文章显示,眼科医师可在视网膜照片中发现糖尿病性视网膜病变。研究人员还展示了在乳腺癌和肺癌筛查、病理学、皮肤疾病识别和电子健康记录数据预测等许多领域的突破。


深度学习算法从标记了基本事实的例子中学习(“这张照片是一只猫”)。然后他们学习模式,而不是按照模式编程。


在这个时代,通过编程使计算机学会比用专家提供的规则硬编码计算机更容易,至少对于许多任务来说是这样。这些模型具有非凡的能力,但也有重要的风险。


当实时数据与它们所训练的数据不同时,模型可能会失败。例如,如果一个模型只接受“猫vs狗”的训练,但给出的是一幅飞机的图片,它不会给出一个好的结果。


更微妙的是医疗保健中一个关键的安全问题。还可能出现与以下因素相关的复杂偏见:基础数据的包容性、基于种族的不平等和不公平的诊断和治疗选择、算法设计选择和其他问题。


监管机构已经开发了框架来评估这类特定任务的人工智能;例如,美国食品和药物管理局已经批准或批准了数百种人工智能医疗设备。


AI 3.0:基础模型和生成AI


AI 2.0有一个关键问题,与灾难性遗忘有关:当处理长文本序列时,它很难记住序列中较早的内容。


2017年出现的transformer架构帮助解决了这一问题,让模型能够将注意力放在长文本上。


在接下来的几年里,transformer与大数据结合在一起,创建了基础模型和大型语言模型。2022年和2023年的进展速度显著加快,标志着第三个时期。


区分AI 2.0和AI 3.0的两个关键因素。首先,AI 2.0是针对特定任务的。它一次只做一件事。如果一个人想要它做其他的事情,他们将需要一个新的数据集和训练一个新的模型。


其次,AI 2.0在很大程度上可以对事物进行预测或分类。它生成新词、图像或其他内容的能力是有限的。


AI 3.0有本质上的不同。它可以完成许多不同的任务,而不需要重新训练。例如,一个简单的文本指令将改变模型的行为。像“给专科医生写这张纸条”和“给病人的母亲写这张纸条”这样的提示会产生明显不同的内容。


这些模型的能力也有了显著提高:解释真正复杂的问题;接受并产生文本、图像和声音;生成回复并进行长时间的交谈。


这些模型有几种类型,但在本节的其余部分中,我们将重点关注一个重要的类别——大型语言模型。


它们已经影响了我们的日常生活,包括写作助手、图像生成器、软件编码助手和聊天机器人。目前也存在与健康相关的大型语言模型。


例如,Med-PaLM和Med-PaLM 2是在谷歌开发的医学调优基础模型,在医师资格考试类型的问题上达到了专家水平的表现。他们还能写出人们健康问题的长篇答案。


当医师将Med-PaLM 2的答案与不知道起源的医师所写的答案进行比较时,他们强烈倾向于评估的9个维度中的8个方面的模型答案。


如何训练大型语言模型?


想象一下拿着一大堆文件,一个人按顺序向模型显示每个单词,但不让它看到下一个单词。相反,这个模型被要求一次又一次地预测这个词。


每当模型出错时,它就会改变单词如何组合在一起的内部表示。最终,它构建了这些单词(以及概念)如何组合在一起的表示。当模型稍后被问及一个问题时,它会通过预测答案中可能出现的下一个单词来做出回应。


把这些模型的基本版本看作下一个单词的预测引擎。这有助于理解它们一些令人惊讶的行为。例如,这些模型可能擅长编写计算机程序,但不擅长算术。


为什么?这是因为他们不是在做数学,而是在按顺序预测下一个单词。同样地,他们可能会返回听起来似是而非的期刊引用。为什么?


出于同样的原因:他们不是在PubMed上查找东西,而是预测下一个可信的单词。这些“幻觉”代表了AI 3.0的新风险类别。


在这一领域,检索增强生成等领域的技术进步正在积极改善性能,而且这些模型使用计算器等工具或实时访问网络的能力也改善了结果。


AI 2.0中存在的偏差和股权风险仍然是AI 3.0的问题。此外,由于在语言语义中编码的偏见,语言模型可能会产生新的风险。


我们预计AI 3.0将作为增强工具投入实践,最初帮助解决医疗保健方面的问题,如文档负担。


随着这些工具随后开始支持临床实践,并且临床医师参与其中,我们需要一个经过深思熟虑的监管框架,以帮助确保患者安全地获益于这一技术。


智慧医疗网 © 2022 版权所有   ICP备案号:沪ICP备17004559号-5