# 使用新图卷积网络算法推断药物目标
场景:新药物研发
痛点:该模型实现了更高的药物目标推测,加快新药研发效率
生物医学中出现的一个基本挑战是需要在相关细胞环境中表征化合物,以揭示潜在的靶向或脱靶效应。笔者介绍一篇来自中国科学院上海药物研究所药物研究国家重点实验药物发现与设计中心发表在Nature Communications上的一篇论文。
最近,基因转录谱数据的快速积累为医学制药从细胞转录组学和 RNA 生物学的角度探索化合物的蛋白质靶标提供了前所未有的机会。在这里,钟飞生等研究者提出了一种新的基于连体谱的图卷积网络 (SSGCN) 模型,用于从基因转录谱中推断化合物的蛋白质靶标。
虽然复合扰动的基因特征只提供了相互作用目标的间接线索,而且不同实验条件下的生物网络使情况进一步复杂化,SSGCN 模型通过揭示复合扰动谱和基因敲除谱之间隐藏的相关性,成功训练以从已知的复合靶对中学习。在基准集和大型时间分割验证数据集上,与之前的方法(例如 Connectivity Map)相比,该模型实现了更高的目标推理精度。预测结果的进一步实验验证突出了SSGCN 在推断化合物的相互作用靶标或相反地在寻找给定感兴趣靶标的新抑制剂方面的实际用途。与之前的方法(例如 Connectivity Map)相比,该模型实现了更高的目标推理精度。预测结果的进一步实验验证突出了 SSGCN 在推断化合物的相互作用靶标或相反地在寻找给定感兴趣靶标的新抑制剂方面的实际用途。
## 简介
由于大多数药物通过与其*体内*靶标相互作用来发挥其治疗作用,因此靶标预测在早期药物发现和开发中发挥着关键作用,特别是在多药理学时代在多药理学的背景下,“灵丹妙药”可能是一个例外情况,并且*计算机*靶标预测可用于探索给定分子的整个治疗靶标空间。这个过程可能有助于加深我们对分子的作用机制、代谢、副作用和耐药性的理解。通过预测批准药物的目标,这些临床使用的化学物质可以重新用于其他疾病例如,西地那非用于治疗勃起功能障碍,但最初开发用于治疗心绞痛。
候选分子的目标可以通过生化实验(例如蛋白质蛋白质组质谱法)来识别,也可以使用计算方法进行预测。计算目标预测由于其低成本和高吞吐量的性质而获得了发展势头。经典的方法通常包括基于配体的方法和基于结构的方法:前一种方法主要利用小分子的特征来模拟药物-靶标相互作用,例如分子指纹和药效团,后一种方法通常依靠分子对接来揭示小分子和蛋白质之间的潜在相互作用。这两种方法都依赖于相似性假设:“相似的分子靶向相似的蛋白质。
转录分析数据的快速积累为计算目标预测提供了新的视角。例如,基于集成网络的细胞特征库 (LINCS) L1000 数据集是在受小分子和遗传构建体干扰的人类细胞系中观察到的基因表达变化的综合资源。已经提出了几种涉及差异表达模式探索的计算方法。这些方法中使用的策略主要包括比较分析、基于网络的分析和基于机器学习的分析。基于比较分析的方法基于基因特征相似性推断目标 ,一个例子是连接图(CMap),它通过查询参考 L1000 库的基因表达特征,将最相似的参考化学/遗传扰动的目标或作用机制(MOA)信息分配给新分子,基于网络的方法系统地将基因表达谱与细胞网络相结合
,例如,通过网络识别 (MNI) 算法的作用模式应用从化学扰动和击倒 (KD) 遗传扰动中学习的网络动力学模型来推断药物靶点
,ProTINA 应用动态模型通过创建细胞类型特异性蛋白质-基因调控网络从差异基因表达谱推断药物靶点,并提供与类似方法相比改进的预测结果。
不同的机器学习算法也被用于挖掘转录特征数据,它们具有正式的标准化统计框架和优化标准,并可能显示出泛化能力。
## 用于学习网络扰动相似性的基于光谱的GCN
为了捕捉药物-靶点的相互作用并因此识别药物靶点,钟飞生等人提出了一个 SSGCN 模型,该模型在网络级别学习 以探索 CMap 中化合物诱导的特征 (CP-signatures) 和基因 KD 诱导的特征 (KD-signatures) 之间的相关性并预测药物靶点
### 模型整体框架
预测模型的关键思想是以更系统的方式捕捉化学和遗传扰动诱导的基因表达之间的相关性。基于这个概念,可以通过将相应的扰动基因表达谱与大量 KD 诱导的可公开获得的基因表达谱进行比较来预测化合物的靶标。学习潜在的相关信息,如图1所示A,

构建了两个基于光谱的 GCN:一个用于复合扰动分析,一个用于基因扰动分析。
这种SSGCN模型的新架构也可以分为三个主要模块:输入模块、特征提取模块和分类模块。(1) PPI网络和差异基因表达谱是第一个模块的输入。为了统一 PPI 网络拓扑和差异基因表达谱的信息,构建了一个称为“基因特征图”的属性图。属性图中的每个节点代表一个蛋白质,每个节点的属性是对应的差异基因表达值。如果两个蛋白质可以相互作用,则任何两个节点都由一条边连接。代表化合物和目标,使用化合物和基因扰动数据构建了两个基因特征图。(2)在特征提取模块中,使用基于谱的GCN进行图嵌入,整合PPI网络拓扑结构信息和差异基因表达谱。图嵌入提供了基因特征图的压缩表示。为了获得化合物和目标的图嵌入,建立了两个并行的 GCN 用于特征提取。因为向量操作比对图的操作更有效,在将基因特征图转化为图嵌入后,可以使用简单的线性回归层来表征化合物和目标的这两个图嵌入之间的相关程度。
(3) 分类模块由一个用于提取输入特征的全连接隐藏层和一个用于二进制分类的输出层组成。在输出层中应用 softmax 函数来计算化合物是否显示出对潜在目标的活性的概率(CPI 分数)。如果化合物与相应的蛋白质相互作用,则将标签 1 分配给化合物-蛋白质对,而将标签 0 分配给相反的情况。
SSGCN 模型是在 Python 3.7 的 TensorFlow 框架(版本 TensorFlow-GPU 1.14.0)中实现的。
### 使用SSGCN模型进行目标预测
如图1B所示,对于给定的化合物 C,使用训练好的 SSGCN 模型预测目标的流程如下: (1) 获取 8 个细胞系中任意一个的化合物扰动基因谱,并提取 978 个界标由 LINCS 联盟定义的基因(有关更多详细信息,请参见方法)。除了 L1000 分析,任何可以提供此类信息的细胞水平转录组分析方法,例如商业基因表达微阵列或 RNA 测序 (RNA-Seq) 也将适用。我们在补充信息中提供了“RNA-Seq 应用协议”(包括一个实际示例)。(2) 输入代表目标T的基因扰动谱的 CP 签名和现有的 KD 签名及其相关的实验条件,即CP时间、剂量、KD时间和细胞系,到训练好的SSGCN模型中计算化合物C和靶标T的CPI分数。(3) 对 179,361 个 KD 扰动剖面的参考库重复步骤 2。(4) 对不同条件下同一目标的KD-扰动剖面的平均CPI分数进行降序对潜在目标进行排序。排名靠前的目标被认为更有可能与化合物C相互作用。类似地,对于给定的目标T,可以通过筛选 22,426 个 CP 扰动曲线的参考库反向使用该管道来识别活性化合物(图1 C)。
### 数据采集
LINCS:由 NIH 资助的基于网络的集成细胞特征库 (LINCS) 计划生成并分类在多个实验环境中暴露于各种扰动剂的各种细胞系的基因表达谱。LINCS I 期 L1000 数据集 (GSE92742, 2012-2015) 和 LINCS II 期 L1000 数据集 (GSE70138, 2015-2020) 均从 Broad Institute 提供的 Gene Expression Omnibus (GEO) 下载。这些图谱是通过称为 L1000 测定的高通量基因表达测定产生的,其中一组 978 个“标志性”基因。这种减少的“标志性”基因集使 LINCS 程序能够生成百万规模的转录谱。为了连通性分析和方便,我们的分析侧重于 5 级特征数据(复制折叠的 z 分数向量),并且仅使用了地标基因的真实测量表达值。Python 库 cmapPy用于访问 GCTx 文件中的 5 级签名。
STRING:STRING (Szklarczyk et al., 2019 ) 是根据已知实验结果和预测结果为 PPI 编译的数据库。从 STRING v11.0 数据库下载了人类 PPI 网络。
### 数据预处理
LINCS:用于 LINCS 数据集预处理的管道如图8 A所示。(1)用 shRNA 扰动后的轮廓特征(第一阶段)。由于 shRNA 之间的“共享种子”序列,shRNA 实验可能会表现出脱靶效应(Jackson 等人,2003;Subramanian 等人,2017)。为了获得一组丰富的稳健 KD 签名,我们对由细胞系和 KD 时间分隔的“trt_sh”签名进行 k-mean (k = 1) 聚类,并保持核心签名,这是集群的中心签名,作为相应集群的表示(Xie et al., 2018)。对八个数据丰富的细胞系(A375、A549、HA1E、HCC515、HT29、MCF7、PC3 和 VCAP)的核心特征进行过滤,以获得相应的 978 个“标志性”载体,它们是由LINCS 联盟。这 978 个向量构成了 KD 签名的输入。(2) 化合物扰动后的轮廓特征(第一阶段)。使用 Broad Institute 提供的云平台 (clue.io) 中的应用程序编程接口 (API) 检索化合物的目标。此次检索产生了 2,027 个化合物和 755 个目标。与策划的 KD 签名一致,CP 签名是通过从数据贫乏的细胞系和非标志性向量中过滤出“trt_cp”签名来策划的。(3) 化合物扰动后的轮廓特征。pKd、pKi 或 pIC 50值大于或等于 6.5 的目标被视为“真实”目标。检索结果为 250 个化合物和 488 个目标。然后从 LINCS II 期数据集中提取这 250 种化合物在八个数据丰富的细胞系(A375、A549、HA1E、HCC515、HT29、MCF7、PC3 和 VCAP)中的原始特征。如上所述,仅保留了 978 个“地标”向量。我们优选选择剂量为 10 μmol/L 且持续时间为 24 h 的样本,对于没有剂量为 10 μmol/L 或持续时间为 24 h 的数据,使用最接近条件的基因特征作为替代。

上图中(A)
LINCS L1000 数据的处理管道。(B) STRINGv11.0 PPI 数据的处理管道。“trt_sh”和“trt_cp”是官方标签,分别表示LINCS数据集中的击倒处理和复合处理。“细胞类型过滤器”过滤掉除八个细胞系(A375、A549、HA1E、HCC515、HT29、MCF7、PC3 和VCAP)中的其他细胞类型数据。“地标过滤器”过滤掉签名中的其他基因值,除了 978个“地标”基因中的基因值。“综合分数”是STRING 数据库提供的衡量分数,用于支持蛋白质-蛋白质关联的几种证据的置信度。
### 数据采样
由 Pabon 等人编制的测试集包含 123 种 FDA 批准的药物,这些药物已在不同的 LINCS 细胞系中进行了分析,其已知目标是在相同细胞中敲低的基因中,用于基准测试。此外,基于 LINCS II 期的 250 种化合物准备了另一个基准数据集。Pabon 等人编制的测试数据集。来自 LINCS 第二阶段的数据集作为两个外部数据集。在这两个外部数据集中排除CP-签名后,LINCS数据库第一阶段的剩余数据被视为内部数据集。内部数据集按照化学结构随机拆分,按照 8:1:1 的比例分为训练、验证和测试数据集三组。在不同的药物发现项目中,活性化合物的比例可能有很大差异,但在大多数情况下,这些非活性化合物比活性化合物出现的频率更高。在这里,对于每个化合物,通过化合物和蛋白质的随机交叉组合为每个阳性目标生成三个阴性目标。此外,在图 S8 中讨论了用不同数据比例训练的模型的性能。
## 基于光谱的GCN的定义
具有 978 个节点的无向图 G 被用于表示具有里程碑意义的 PPI 网络。图 G 中的每个节点代表一个蛋白质,每个边代表一个特定的 PPI 相互作用。邻域信息包含在边缘中。传统的卷积神经网络结构不适合在这个图上进行卷积操作,这是一种非欧几里得结构。基于图的傅里叶变换和卷积定理,可以对图应用基于谱的卷积运算来捕获图网络的属性。
对于给定的图G, 它的拉普拉斯矩阵𝐿可以定义为
L=D-A
在这个式子当中,𝐴 是图的邻接矩阵G和𝐷是图的度矩阵G. 在图论中,对称归一化拉普拉斯算子由于其数学对称性而更常用。对称归一化拉普拉斯算子𝐿𝑠𝑦𝑠可以定义为:
在经典傅里叶变换的基础上,我们将节点中特征函数的傅里叶变换重新定义为函数与拉普拉斯矩阵对应特征向量的内积:
𝑘 是图上的节点,𝑓是节点中的特征函数𝑘, 和
是拉普拉斯矩阵节点中的特征向量。如果对拉普拉斯矩阵进行谱分解,𝐿𝑠𝑦𝑠可以表示为
𝑈 是正交矩阵,其列向量是拉普拉斯矩阵的特征向量,并且𝜆是对角线矩阵,其中对角线由特征值组成。特征函数的傅里叶变换𝑓然后可以将图上的内容重写为:
因为𝑈是正交矩阵,函数的傅里叶逆变换𝑓图上可以写成
根据数学中的卷积定理,两个函数的卷积过程是它们的傅里叶变换乘积的傅里叶逆变换。定义ℎ作为卷积核,图上的卷积运算可以表示为:
经过以上推导,基于谱的GCN单层的最终形式可以表示为:
对于GCN第一层的卷积操作,傅里叶变换为ℎ直接定义为可训练的对角矩阵 ω。因此,图上的卷积操作可以表示为:
经过以上推导,基于谱的GCN单层的最终形式可以表示为:
σ 是层的激活函数,
是图层的输入特征
,
是层的输出
,根据以上定义,谱(特征值)在卷积运算中起重要作用;因此,GCN 被称为基于谱的 GCN。为了有效地提取特征并从数据中深度学习,可以将多层感知器连接到图卷积层以增加模型的容量。
评论(0)

暂无数据