人工智能(artificial intelligence,AI)一词源于1956 年的达特茅斯会议[1]。随后很快便与医疗行业结缘。1966 年,美国麻省理工学院(MIT)推出了最早的自然语言聊天机器人ELIZA,能够模仿临床治疗中的心理医生,与患者进行人机对话;1972 年,英国利兹大学研发的AAPHelp系统,能根据症状推断可能产生患者腹部剧痛的原因;1974 年,美国匹兹堡大学研发的INTERNIST-I 系统,主要用于辅助诊断内科复杂疾病;1976 年,美国斯坦福大学研发的MYCIN 系统,用于自动判断患者所感染的细菌类别并提供相应的抗生素处方建议。尽管20 世纪80 年代,AI 遭遇寒冬;但在进入21 世纪以后,随着算法、算力和大数据三要素齐聚,再次引爆AI 热潮[2]。医疗作为最具挑战的行业之一,正是AI技术和应用的制高点。从近几年的文献可以看出[3-5],几乎每种疾病都有其结合AI技术和应用的文章发表,如常见的肿瘤、眼部疾病、皮肤疾病、糖尿病、肾病、心脑血管疾病、神经/ 精神相关疾病等。借助AI 加速挖掘这些医学证据,主要来源于5 大类技术。(1)计算机视觉(computer vision,CV)。卷积神经网络(convolutional neural network,CNN) 在AI 医学影像方面有出色表现,如在糖尿病性视网膜病变的AI 筛查[6]、皮肤癌/ 黑素瘤的AI诊断[7]、肺部电子计算机断层扫描(CT)图像的AI 识别[8]、基于脑部磁共振成像(MRI)的阿尔茨海默病AI 分类[9] 等方面应用。值得一提的是,CV 是此次AI 热潮中的“弄潮儿”,AI 医学影像也被行业内人士认为是最有可能率先实现商业化的AI 医疗领域[2]。(2)自然语言处理(natural language processing,NLP)。如果说CV 是在近10年里纵向发展了各种不同的CNN 架构(从2012 年新鲜出炉不到10 层的AlexNet[10]到2015 年高达152 层的ResNet[11]),那么NLP 领域里最大的创新在于横向提出了一套完整的方案去解决各种各样的NLP任务,特别是2018 年提出的BERT[12] 模型在11 个NLP 任务上刷新了纪录,可以做出问答、情感分析、命名实体识别、文档聚类等任务。这些NLP 技术的发展无疑对富含文本数据的电子病历(如病历主诉、出院小结)带来了新的价值,通过对医疗文本的分析和理解,可以构建疾病模型,以及提供AI 诊疗建议。(3)序列数据分析(sequential data analysis)。以患者为中心的医疗数据是对患者全生命周期的记录,因此从时间维度建模患者数据,无论是长达多年的电子病历或医保记录,还是数天内在重症监护室(ICU)里的多维指标采集,都可以借助序列数据分析来构建复杂模型。特别是循环神经网络(recurrent neural network,RNN),通过学习前面时间步而预测下一步事件的概率,因此常被用于AI 风险预测,如对糖尿病患者的慢性肾病预测[13]、对再入院的预测[14] 等。此外,信号相关的流数据也是序列数据分析的对象,如分析心电图(ECG)检测心律失常及其分类[15],又如分析脑电图(EEG)预测癫痫[16],以及通过可穿戴式设备获取姿态、步态数据流来预测帕金森病严重程度[17] 等。(4)图神经网络(graph neural network,GNN)。2019 年GNN 在各种AI 大会上刷榜,由此可见GNN 技术在近2 年的热度非常高。GNN 里的“图”,即为计算机科学“图论”中称为“图”的数据结构,最简单的形式化表示就是其由结点(node)和边(edge)组成。在很多应用场景中,我们常常见到这样的“图”结构,如社交网络(人是结点而社交关系是边)、电子购物(用户和商品是结点而购买关系是边)。聚焦医疗行业里,AI 药物研发正在拥抱GNN 新技术[18],如借助GNN 预测蛋白质- 蛋白质的相互作用、药物- 药物的相互作用,以及药物- 靶标、药物- 疾病、疾病- 蛋白质的相互作用,其中靶标是与某种疾病的发生和发展密切相关的生物分子(如蛋白质和核酸),对这种生物分子进行干预,能够治愈或缓解与其相关的疾病。(5)强化学习(reinforcement learning)。从2016 年阿尔法围棋(AlphaGo)[19]以4 ∶ 1 的比分战胜人类职业棋手,到2017 年AlphaGo Zero[20] 不再需要学习人类的棋谱,而是通过自我对弈提高棋力,其背后的深度强化学习算法备受业界关注。在医疗行业里,强化学习常被用于求解治疗方案的最佳策略[21],其中目标函数是最大化预后的短期或长期效果。此外,考虑到这类技术在棋类和游戏类中应用效果明显,而在医疗领域,更为接近的医疗场景当属AI 医护机器人。如机器人辅助手术[22](robotic-assisted surgery,RAS),通过感知环境状态,学习外科医生的动作和相应的奖赏函数,从而提供最优的策略,增强RAS 的鲁棒性和适应性。综合上述AI 技术,在不同的落地场景中分别赋能AI 医疗重要的2P 角色(图1):AI 医学影像助力医生、AI 诊疗赋能患者。同时,围绕这2 个角色,深度挖掘2D 概念:AI 风险预测理解疾病、AI 药物研发挖掘药物。不难看出,现行相对成熟的AI 技术(如CV 和NLP)已经在不少应用场景中赋能予医生和患者角色。而对于疾病和药物,这些概念的研究本身就是亟待解决的科学论题,与之对应的AI 技术(序列数据分析和GNN)正分别在时间和空间上推出新算法。AI 无疑给医疗行业带来了新技术、新应用,同时我们也逐渐意识到,AI 为医疗行业带来了新问题、新挑战。尤其是当我们把AI 在医疗行业的应用视为一种特殊的干预手段时,我们是否应该建立系统的方法来评价和监管这些干预手段呢?这些AI 医疗技术和应用是否安全(safe)、有效(efficacy & effectiveness) 并值得信任(trustful)呢?类比于药物,AI 医疗自身需要连续、长期且严格的研究,以产生科学有效的证据,这些证据可随时间推移在不同人群中被验证。不同于药物,AI 医疗更需要与用户(包括但不限于医生和患者)互动,成为用户可理解、可信任的干预手段,通过将AI 医疗集成到现有的临床环境里,来收集和分析这些新证据。本文首先通过循证医学的证据金字塔来看现有AI 医疗技术和应用的循证等级;然后从临床试验质量管理规范角度,讨论AI 医疗的临床试验在不同阶段该如何设计和评估;最后解读最新的用于规范AI 临床试验报告的两大指南[《人工智能干预试验标准方案的推荐条目》(Standard Protocol Items:Recommendations for Interventional Trials-Artificial Intelligence,SPIRIT-AI)[23] 和《人工智能试验报告统一标准》(Consolidated Standards of Reporting Trials-Artificial Intelligence,CONSORT-AI )[24]],也是首个AI 临床试验国际标准。循证医学(evidence-based medicine)的证据金字塔的证据等级是自下向上逐渐升高(图2)。其基本思想是从最基础的证据出发,不断地验证、推论、强化,最终积累出可以定性的证据为临床所依循。从这个角度来审视AI 医疗技术和应用,我们不难发现很多机构推出的AI 与医生同台PK[25],其证据等级仅等同于专家经验。这往往是以新闻发表方式公布于世,但是这些并不是严谨的临床研究结果。通过对医学期刊的搜索发现,有数百篇病例报告均对AI 医疗技术和应用进行过专业的描述和分析,包括在多例病例中使用[26]。同时,这些病例报告也指出了AI 医疗技术和应用的缺点,如AI 模型在实际应用中往往达不到纯实验环境里的高性能。考虑到AI 医疗技术和应用目前尚未大范围使用,且鲜有回顾性病例对照研究结果。可以预见的是,我们将对某些特定疾病结局的改善,由果寻因来观察并检验AI 的使用是否与之存在着统计学上的关联。我们通过检索和分析,惊喜地发现数十项前瞻性队列研究[27],对于使用AI 的干预组和不使用AI 的对照组由因寻果,观察验证其是否在临床结局上有差异。此外,有7 项随机对照试验[27] 正在开展,其中6 项来自中国。这些医学证据逐步开始被系统评价[28],并进行荟萃分析[29]。当然,我们也意识到现在绝大部分证据聚焦在AI 医学影像的技术和应用。但是,我们相信并期待着基于循证医学的方法论AI 和医疗的结合,以及各种技术和应用均将得到定性与定量的证据,最终被纳入临床实践指南。《药物临床试验质量管理规范》(Good Clinical Practice, GCP)[30] 指出:“临床试验,指以人体(患者或健康受试者)为对象的试验,意在发现或验证某种试验药物的临床医学、药理学以及其他药效学作用、不良反应,或者试验药物的吸收、分布、代谢和排泄,以确定药物的疗效与安全性的系统性试验”。药物临床试验分为Ⅰ ~ Ⅳ期,其中Ⅰ ~ Ⅲ期是上市前的临床研究,而Ⅳ期是上市后的临床研究。此外,还有临床前研究和早期发现、发明阶段研究(表1)。相比药物研发的各个阶段,AI 医疗的研发大多还停留在算法发现、发明和临床前研究阶段[31]。值得一提的是,AI 医疗大部分是数据驱动的学习算法,所以需要重点关注数据的因素,不能只停留在机器深度学习的算法层面指标(如AUC),需要更多地关注如实说明训练时的数据质量问题(如数据缺失情况和数据异常情况等),以及训练后的模型性能问题(如模型的可解释性、偏差和漂移)。类比药物说明书,一般包括以下内容:药品名称、成份、性状、适应证或者功能主治、用法用量、不良反应、禁忌、注意事项、规格、有效期、批准文号和生产企业等。在可预见的未来,将有AI 医疗说明书,包含AI 技术应用的数据适用性、安全性、有效性这些重要科学评价和结论,用以指导临床的正确使用。此外,AI 医疗的目标是赋能用户(其中用户可以是医生、患者、临床研究者等),所以在复杂度高且响应度强的医疗行业,AI 医疗的技术和应用需要有专业的系统设计和量化评估。如互联网公司常用A/B 测试对产品功能及内容的优化迭代,AI 医疗在评估用户体验和系统带来的价值时,也可以借助这样的方法,提高用户满意度。2020 年9 月《自然医学》杂志推出了一系列文章,包括1 篇社论(editorial)呼吁对于AI 的使用制订临床试验指南[32],1 篇专家评论(comment)建议规范基于AI 的临床试验[27],以及2 篇共识声明(consensus statement)介绍了两大指南SPIRIT-AI[23] 和CONSORT-AI[24], 用以规范AI 医疗的临床试验设计和汇报。其中,SPIRIT-AI 是《干预试验标准方案的推荐条目》(Standard Protocol Items:Recommendations for Interventional Trials,SPIRIT)对于AI 模块的扩展;CONSORTAI是《试验报告统一标准》(Consolidated Standards of Reporting Trials, CONSORT)对于AI 模块的扩展。简而言之,如果临床干预涉及AI 技术和应用,那么建议参考SPIRIT-AI,而相应的涉及统一标准建议参考CONSORT-AI。具体而言,SPIRIT-AI 在现有的2013年版基础上新增15 项,其中3 项是在原有清单上进行细化,另外12 项是在原有清单上进行扩展;CONSORT-AI 则在现有的2010 年版上新增14 项,这些新增项对于AI 干预的报告尤为重要。经比较后不难发现,CONSORT-AI 的14 项几乎全在SPIRIT-AI 中,而SPIRIT-AI 仅多了1项对于AI 干预已有相关的临床证据,需要在背景和原理章节中进行介绍和描述。本文对AI 新增项进行了解读 [23-24](表2)。AI 医疗的临床试验才刚刚起步,国内外产学研多方也在共同努力推进。除了科研机构引领并监管AI 医疗的临床试验,产品部门也需尽快落实这些指南新增项,以便在AI 医疗的临床试验过程中能更有效地进行数据收集、管理和分析。如IBM®Clinical Development[33] 提供的临床试验解决方案,正在探索及支持AI 医疗的临床试验。2017 年国务院印发《新一代人工智能发展规划》,该规划提出了2020 年、2025 年、2030 年的战略目标,医疗作为其中一个重要的应用领域受到了极高的重视。在这短短3 年里,人们已经惊喜地看到了很多AI 与医疗结合的试用和试点。2020 年,我们展望未来,产学研相结合,能够更健康、更长远地发展。让AI 医疗在前进的道路上有望有证可循、有据可依。梅婧,博士,IBM 中国研究院,高级研究员。专业方向:人工智能医疗杨晓栋,硕士,IBM Watson Health,业务拓展总监。专业方向:数字化时代的智慧医疗李少春,硕士,IBM Watson Health,大中华区总经理。专业方向:数字化时代的智慧医疗