人工智能预测RNA和DNA结合位点，以加速药物发现

针对核酸大分子，特别是 RNA 的基于结构的药物设计（SBDD）是一个获得动力的研究方向，已经产生了几种 FDA 批准的化合物。与蛋白质类似，SBDD 中 RNA 的关键组成部分之一是正确识别推定候选药物的结合位点。

RNA 具有共同的结构组织，再加上这些分子的动态特性，使得识别小分子的结合位点变得具有挑战性。此外，需要基于结构的方法，因为仅序列信息不考虑核酸大分子的构象可塑性。深度学习有望解决结合位点检测问题，但需要大量的结构数据，与蛋白质相比，这对于核酸来说非常有限。

俄罗斯斯科尔科沃科技学院的研究人员，在一项研究中组建了一组约 2000 个核酸小分子结构，包括约 2500 个结合位点，比以前使用的大 40 倍左右的数据集，并展示了一个基于该结构数据集的深度学习方法 BITENETN，以检测核酸结构中的结合位点。BITENETN 使用任意核酸复合物进行操作，显示出最先进的性能，并且有助于分析不同的构象和突变变体。

该研究以「STRUCTURE-BASED DEEP LEARNING FOR BINDING SITE DETECTION IN NUCLEIC ACID MACROMOLECULES」为题，于 2021 年 11 月 26 日发布在《NAR GENOMICS AND BIOINFORMATICS》。

RNA 分子在许多细胞过程中至关重要，例如基因调控和细胞信息传递，因此代表了一类有前途的药理靶点。RNA 靶向药物发现活动探索了各种观点，包括 DNA G-四链体稳定剂的设计、靶向核糖开关的抗生素、反义RNA和靶向 RNA 的抗病毒药物等等。扩展可成药基因组的 RNA 靶标，包括那些与「不可成药」蛋白质靶标或非编码 MICRORNA 相关的靶标，尤其令人感兴趣。

然而，RNA 药物开发存在许多障碍，其中包括与低化学多样性和 RNA 结构的动态特性有关。与蛋白质类似，RNA 分子高度结构化以形成结合位点，小分子可以通过这些位点调节它们。因此，需要高效的、结构特异性的 RNA 小分子配体结合位点检测器来推进 RNA 靶向药物的发现。

「例如，核酸 DNA 和 RNA 可以参与信号传递，我们可以针对它们所参与的信号传递或任何其他过程。对于不可治疗的蛋白质靶标，例如无序蛋白质或缺乏方便结合位点的蛋白质，这可能是一种有希望的策略。」该研究的首席研究员 PETR POPOV 说，「然后还有身体外来的致病性 RNA，例如病毒，如 SARS-COV-2 或 HIV。」

尽管有大量的蛋白质特异性方法，但用于预测 RNA-小分子相互作用位点的方法数量非常有限，大致可分为基于知识的方法、经验方法和机器学习方法。基于知识的方法，例如 INFORNA，在已知 RNA-小分子结合位点的数据库中挖掘 RNA 基序。经验方法，例如 RSITE、RSITE2 或 RBIND，依赖于 RNA 结构的简单几何特征，并寻找这些特征的极端作为结合位点的指标。

最近，科学家开发了一种机器学习方法 RNASITE；它包含一个随机森林模型，该模型使用计算出的 RNA 的基于结构和基于序列的特征进行操作。使用深度学习有望改进 RNA 结合位点检测器；然而，由于可用的 RNA 结构数量相对较少，它受到了阻碍。

事实上，虽然最近用于蛋白质-小分子或蛋白质-肽结合位点检测的深度学习方法依赖于数千个示例的数据集，但 RNASITE 模型仅在 60 个 RNA-小分子复合物上进行了训练。

在这项研究中，该团队展示了第一个基于结构的深度学习方法来预测核酸-小分子配体结合位点。为了克服小数据集的问题，研究人员考虑了 RNA 和 DNA 复合物、与晶体对称配对形成的交互界面、NMR 模型和数据增强。设计组建了一个包含 2000 个核酸小分子结构的数据集，包括从蛋白质数据库（PDB）检索到的 2500 个结合位点接口。

接下来，研究人员开发了基于体素的核链结构视图，每个体素代表物理空间中的一个 1 3 立方体，并存储对应于特定类型原子密度的八个通道。然后将体素化的表示馈送到 3D 卷积神经网络，该网络对与结合位点有关的核酸结构中的片段进行评分。获得的基于结构的深度学习模型称为 BITENETN，可预测结合位点界面中心的坐标、每个中心的概率分数以及结合位点中每个核苷酸的分数。

为了训练 BITENETN 深度学习模型，研究人员构建了一个包含 1933 个核酸-配体复合物的大型数据集，包括不同类型的 1065 个 DNA 和 886 个 RNA 结构（18 个结构同时包含 DNA 和 RNA）。

研究人员使用 3D CNN 架构在精选的核酸结构上训练 BITENETN，证明在蛋白质-小分子分子和蛋白质-肽结合位点检测方面表现最佳，上图说明了 BITENETN 工作流程。

为了比较 BITENETN 与其他方法的性能，研究人员获得了四种不同方法的结合位点预测：RSITE、RSITE2、RBIND、RNASITE，用于十个测试集。研究人员计算了现有方法的加权 AP、ROC AUC 和 MCC 性能指标，以及在设计的数据集上训练的 10 个 BITENETN 模型。

「大多数早期的方法只适用于 RNA，特别是单链。我们的方法适用于 DNA 和两条或更多条链。我们甚至可以看到当多个分子纠缠在一起时出现的额外位点。」论文的作者 IGOR KOZLOVSKII 说。

图示：数据集上的加权 AP、ROC AUC 和 MCC 性能指标。（来源：论文）

结合位点是大分子的结构和动态特性；因此，预测结合位点的方法应区分具有开放和折叠结合位点的构象，并适用于构象集合的分析。为了证明 BITENETN 用于相关的核酸配体结合位点检测问题，研究人员测试了HIV-1 的反式激活反应区域和ATP 适体。

图示：与小分子结合的七种 TAR RNA 结构的 AP 、ROC AUC 和 MCC 性能指标。（来源：论文）

图示：在野生型 ATP 适体及其 G6A 突变体的 ATP 结合和 ATP 未结合 MD 轨迹上计算的结合位点得分。（来源：论文）

总之，该团队想强调的是，核酸结构在原子组成和结构折叠上都不同于蛋白质结构，因此难以直接应用蛋白质结合位点检测方法。在这里，该团队为涵盖各种核苷酸的核酸结构设计了一种特定的类型，适用于 DNA 和 RNA，以及它们的多链复合物。

他们设计的 BITENETN，在构建的测试集上始终优于其他方法。BITENETN 具有特定的构象，正如我们通过分析结合小分子的七种不同 HIV-1 TAR RNA 结构所证明的那样。它有助于大规模分析，例如构象集合或突变变异分析，如 ATP 适体案例研究所示。最后，BITENETN 可以使用 RNA 和 DNA 复合物，包括多条链。

「SCIENCEAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

人工智能预测RNA和DNA结合位点，以加速药物发现

相关推荐

友情链接