欢迎访问智慧医疗网 | 网站首页
 
当前位置:首页 > 医疗人工智能

BioNet: 基于深度图卷积的大规模异质生物信息网络关系预测模型

发布时间:2022-03-18 来源:医学AI在线AIMonline 浏览量: 字号:【加大】【减小】 手机上观看

打开手机扫描二维码
即可在手机端查看

今天给大家介绍一篇由国防科技大学计算机学院杨希助理研究员、吴诚堃副研究员等人2021年11月发表在Briefings in Bioinformatics上的文章《BioNet: A Large-scale and Heterogeneous Biological Network Model for Interaction Prediction with Graph Convolution》。本文针对生物医药实体间相互作用的预测问题,提出了基于深度图卷积的大规模异质生物信息网络关系预测模型BioNet。

微信图片_20220318134524.png


1

研究概述


了解疾病、药物、基因、生物通路等实体间的相互作用关系是采用智能方法进行药物初步筛选的关键。对于相互作用关系的预测问题,一种常用的方法是对涉及多种生物医学实体的异构网络进行系统性地分析。近年来,图神经网络成为关系预测领域的热门研究方向。然而,生物相互作用网络固有的异构复杂性和海量的数据提出了巨大的挑战。本文旨在开发一个数据驱动的模型,该模型能够从交互网络中学习潜在的信息并做出较为准确的预测。


作者开发了BioNet,通过整合与化合物、基因、生物通路和疾病相关的数据集,构建了一个大规模的异质生物相互作用网络,并基于编码器-解码器架构提出了一种深度图卷积网络模型。该模型利用图卷积编码器从子图中学习网络中节点的嵌入表示,并采用张量分解解码器计算化合物-基因相互作用的概率;同时,为了解决大规模图模型训练的效率问题,开发对应的并行策略,有效加速了模型的计算过程并提升了模型的可扩展性。最后,利用BioNet预测与中风和癌症相关的化合物-基因相互作用,并通过查找文献和对比相关实验数据的方式证明了结果的可靠性。很有意思的是,课题组利用BioNet进行了针对新冠关键靶标的智能药物推荐,得到的结果与基于分子动力学模拟的方法得到的结果在较大程度上可以互相印证(课题组2021年基于天河新一代超级计算机完成的“基于自由能微扰-绝对结合自由能方法的大规模新冠药物虚拟筛选”工作入围了2021年度的戈登贝尔新冠特别奖)。这也启发我们更多地去探索HPC和AI混合驱动的药物筛选方法,在保证筛选命中率的同时,尽可能地利用已有知识和智能算法提升整体计算效能。


2

相关方法

(1)网络构建

利用大规模生物异构网络构建了六个二元关系子图(CC-graph、GG-graph、CP-graph、GP-graph、CD-graph、GD-graph)和一个多元关系子图(CG-graph)。然后,将这些子图重新整合为三个组合图:① CGP 图、② CGD 图和 ③ CGPD 图。


表1 集成的多类型交互图的统计和数据来源

微信图片_20220318134529.png
微信图片_20220318134532.png

图1  每个网络中包含关系类型


(2)预测模型

微信图片_20220318134538.png

图2  BioNet 的整体架构:

网络构建→图表示→图卷积编码器→目标节点嵌入→张量分解解码器→交互预测


(3)并行优化

微信图片_20220318134541.png

图3  跨GPU 节点的训练数据分布方案


训练过程中的计算量主要由连接边的数量决定。本文将训练负载拆分为多个批次,从而实现跨多个GPU的高效并行计算。每个GPU都维护一个BioNet模型的副本。在每次传递中,梯度融合(Gradient All-Reduce)与梯度计算(Gradient Computation)通过并行的方式对模型参数进行更新。每个GPU上的模型结果是相同的,因为每个GPU都以相同的副本开始,并且由于梯度融合操作,所有GPU上的权重更新都是相同的。BioNet支持识别多种相互作用类型,每种相互作用类型都有不同数量的训练样本。在将训练负载分摊到不同GPU时,需要确保:(1) 分配给每个GPU的整体工作负载需要大致平衡;(2) 分配给每个GPU的特定关系类型的工作负载需要均匀分布。训练数据的分布方案如图3所示。代表化合物和基因之间不同类型的关系。


3

结果和讨论

BioNet在CGP、CGD和CGPD三个数据集上的所有性能指标(包AUROC、AUPRC和AP@20)的表现优于其他方法。与基于GCN的模型相比,BioNet-CGP在AUROC上比GCN-Total提高了12.5%,在AUPRC上提高了17.1%,在AP@20上提高了31.5%。这说明使用二元关系子图进行预训练可以为节点嵌入学习提供有价值的信息。在训练过程中,BioNet与CGINet相比更均匀地训练每种类型的关系,从而解决了因每种类型的CG对数量不平衡而导致的一些分类错误。


评估了BioNet使用不同数量V100 GPU的并行处理性能。图4显示了使用不同数量的GPU训练BioNet-CGP、BioNet-CGD和BioNet-CGPD所花费的时间。随着GPU 数量的增加,时间成本显着降低。例如,当使用相同大小的数据集(BioNet-CGP)时,BioNet并行模型单个Epoch的计算时间减少了近7个小时。16个GPU计算时的并行效率为:

微信图片_20220318134544.png
微信图片_20220318134547.jpg

图4 不同数量GPU下的时间开销


4

应用示例

新型冠状病毒的刺突蛋白位于病毒表面,通过与宿主细胞的ACE2受体结合侵入并感染宿主。课题组利用BioNet预测相关的相互作用。打分靠前的相关预测可整理如图5所示。

微信图片_20220318134550.png

图5 面向新冠关键靶标的智能药物筛选部分结果


图5中所列结果是采用BioNet预测得到的相关药物。其中坎地沙坦酯(Candesartan cilexetil)、双嘧达莫(Dipyridamole)、茚地那韦(Indinavir)等已通过基于分子动力学模拟的的虚拟筛选方法和湿实验得到验证,确认是针对 SARS-CoV-2 主蛋白酶 (Mpro)的有效抑制剂。特别是,已有临床实验证明,常用的抗血栓药物双嘧达莫证明是治疗 COVID-19 重症患者的有效辅助药物。




智慧医疗网 © 2022 版权所有   ICP备案号:沪ICP备17004559号-5