榴莲忘返 2014
导读
通过整合 ChEMBL 活性数据和 CrossDocked 的靶点信息,BigBind 数据集在 BANANA 模型的辅助下,有效提高了虚拟筛选的成效。
- BigBind 数据集结合了 ChEMBL 的活性数据和 CrossDocked 的靶点信息。
- BANANA 模型在训练和测试中表现出色。
- 相较于传统的分子对接技术,BANANA 模型在效率和效果方面均有显著提升。
BigBind 是一种创新型数据集,将 ChEMBL 的活性数据映射至 CrossDocked 的蛋白靶点,包含 851K 个配体结合亲和力和 3D 口袋结构。这种结合不仅增加了结合构象的数据量,而且加入了新的亲和力数据。
研究者利用这一数据集开发了 BANANA(基础神经网络亲和力分类模型),该模型能有效区分活性和非活性化合物。在 BigBind 测试集上,BANANA 模型取得了 0.72 的 AUC,相比仅依靠配体信息的模型(AUC 为 0.64)有所提升。
此外,在 LIT-PCBA 基准测试中,该模型表现出强大的性能(中位 EF1% 达到 2.06),且比使用 GNINA 的分子对接快了 16,000 倍。值得一提的是,当研究者先用 BANANA 筛选掉 90%的化合物,再进行 GNINA 对接时,取得了 EF1% 4.95 的成绩。
分子筛选与数据整理
分子选择标准
- 原子类型: 按照 ZINC 惯例,选取了只包含特定原子(H、C、N、O、F、S、P、Cl、Br、I)的分子。
- 混合物排除: 所有混合物被过滤。
- 大小与重量限制: 每个分子至少包含 5 个原子,分子量低于 1000。
重复处理与结构优化
- 活性值重复: 使用了 KNN 模型来处理任何活性值的重复。
- 三维结构生成: 使用 RDKit 创建分子的三维结构,并利用 UFF 进行优化。不合格的结构被丢弃。
蛋白质结合口袋分析
确定结合口袋
- 配体结构叠加: 将所有与口袋结合的配体晶体结构进行叠加。
- 定义结合口袋: 结合口袋的定义包括了所有在配体原子 5 埃范围内的受体残基。
- 口袋文件创建: 为每个受体单独保存了 PDB 文件。
边界盒与筛选
- 边界盒定义: 定义了一个含有 4 埃填充的三维边界盒,包含了所有结晶配体。
- 筛选标准: 筛选掉了口袋文件中含有少于 5 个残基或边界盒超过 42 埃的文件。
模型训练数据划分
聚类与分割
- 相似性评分: 使用 ProBis 生成每个口袋之间的相似性评分。
- 聚类: z 得分 ≥3.5 的口袋被聚集在一起。
- 数据划分: 数据按照 80:10:10 的比例划分为训练、测试和验证集,确保在聚类内保持一致。
靶标特异性划分
- LIT-PCBA 靶标: 与任何 LIT-PCBA 靶标同一聚类的口袋被纳入测试集,以便评估。
简化结构网络分析(SNA)
分类问题
- 化合物标记: 将结合亲和力小于 10 μm 的化合物标记为'活性'。
- 选择非活性化合物: 选择了等量的非结合化合物作为'非活性',避免了与类似靶标的已知结合物。
分子表征
- 原子特征: 包括正式电荷、杂化、与之连接的氢原子数量以及芳香性。
- 键表征: 键作为边被描述,标注了键的顺序。
模型训练与评估
MPNNs 与输出向量
- 创建输出向量: 使用了两个不同的 MPNN 来创建配体(vL)和受体(vR)的向量。
- 计算输出: 这些向量的外积被展平并通过多层感知器进行处理。
训练细节
- 损失函数: 对于回归使用均方误差,对于分类使用二元交叉熵。
- 优化器与超参数: 使用了 AdamW 优化器,具有特定的学习率和批量大小。
模型测试
- ROC AUC 分析: 使用接收器操作特征曲线下的面积进行评估。
- 虚拟筛选指标: 在 LIT-PCBA 靶标上比较了前 1%富集因子和标准化富集因子与 GNINA 的表现。
BANANA
速度评估
- 基准测试: 在特定 GPU 设置下,将 BANANA 的速度与 GNINA 在 PDBbind 2016 核心集上的表现进行了基准测试。
虚拟筛选中的实际应用
- 使用 BANANA 进行筛选: 在传统对接 GNINA 之前,用于筛选掉虚拟筛选中 90% 的化合物。
结果
BANANA 模型在不同的训练条件下展现出了显著的性能差异。未经 SNA 训练的模型中,仅涉及配体的模型相比同时涉及配体和受体的模型表现更佳。这一现象说明了数据集的偏差是影响模型性能的一个关键因素。然而,在经过 SNA 训练后,包含配体和受体信息的模型性能显著优于仅包含配体的模型,证实了 SNA 训练能有效提升模型在理解配体与受体间相互作用方面的能力。
在与 GNINA 模型的比较中,BANANA 模型展现出了一定的竞争力。在默认的集成模型中,BANANA 的富集因子(EF1%)略低于 GNINA(2.06 对 1.88),但在密集模型中表现略好(2.58)。值得一提的是,BANANA 与 GNINA 的表现似乎并无直接关联。结合 BANANA 和 GNINA 的组合模型在中位数 EF1%上达到了 4.95,性能显著提升。
在速度方面,BANANA 模型表现尤为出色。在评估 PDBbind 2016 核心集中的单个蛋白-配体复合物时,BANANA 的平均处理时间仅为 1.7 毫秒,而 GNINA(默认设置)则需要 27 秒。这一显著的速度优势使得 BANANA 和 GNINA 的组合模型运行速度是 GNINA 单独运行速度的十倍,同时还能维持更高的性能水平。
图 1: BigBind 数据集的创建流程
图 2: BANANA 架构示意图
图 3: 使用与未使用 SNA 训练模型的 ROC 曲线对比
- 左图显示了应用 SNA 的配体与受体模型(0.72)与仅限配体模型(0.64)的测试 ROC 曲线。
- 右图展示了未使用 SNA 的配体与受体模型(0.64)与仅限配体模型(0.75)的测试 ROC 曲线。值得注意的是,SNA 模型的 AUC 值不宜与非 SNA 模型进行对比,原因在于它们的测试集并不相同。
图 4: 各模型在 LIT-PCBA 靶标上的表现
表 1: 各模型在 LIT-PCBA 上的中位 EF1%、NEF1%和 AUC 值
由于 BANANA+GNINA 模型不对每种化合物进行明确评分,因此无法计算 AUC 值。
讨论与总结
- BigBind 数据集的创新
- BANANA 模型的实用性与速度
- 未来发展方向的探索
深度学习模型的有效性很大程度上依赖于其训练数据集的质量。在蛋白质-配体结合亲和力预测的研究中,研究者通常基于 PDBbind 数据集进行机器学习模型的训练,但这个数据集规模较小且存在内在偏差,限制了其实用性。为此,研究者开发了 BigBind 数据集,其中包含 851K 个蛋白质-配体结合亲和力的数据以及它们的受体结合口袋的三维结构。
研究者还增加了假定的非活性物质以减少数据集的偏差,并证明了基于这种去偏数据集训练的模型能够学习关于蛋白质-配体相互作用的信息,并且能够应用于新的靶标。
该模型在单独使用时,表现与 GNINA 的分子对接工作相当,在 LIT-PCBA 基准测试中其运行速度比传统分子对接快 16,000 倍。此外,在使用 BANANA 筛选掉 90%的化合物后,再用 GNINA 重新评分,研究者达到了 4.95 的 EF1%中位数,这是业内领先的成绩。因此,BANANA 在虚拟筛选中显示出了直接的实用性。由于模型评估单个配体只需 1.7 毫秒,因此在筛选大型数据集(如 Enamine 的 REAL 数据库)时展现出了巨大的潜力。
作者在文中提到,这项研究使用的模型相对简单,未来计划探索更高级的架构。特别感兴趣的是那些假设配体三维构象以解释活性的模型。可能通过对三维空间的更多归纳偏见,能够提高模型的性能。
此外,计划未来扩展 BigBind 数据集,例如,加入 PubChem 中的高通量筛查数据,虽然这些数据噪音较多,但可能有助于提升模型性能。
缺点:
- 数据集的代表性与偏差
- BigBind 数据集的代表性可能有限,数据集中的偏差可能影响模型性能。
- 将 ChEMBL 活性数据映射到蛋白质靶标的过程可能引入错误或偏差,这些并未得到充分讨论。
- 模型性能与验证
- 性能指标(AUC,EF1%)良好但并非顶尖,关于模型优于现有方法的结论有待讨论。
- 对外部数据集或实际应用的验证不够详尽,这对于确立模型的实际应用价值至关重要。
改进建议
- 提升数据集质量与多样性
- 扩大 BigBind 数据集,包括更多样化的蛋白质-配体复合物,并进一步探索数据集内的潜在偏差。
- 提供更详细的数据集映射过程分析,包括错误估计和偏差缓解策略。
- 改进模型验证与基准测试
- 包括对外部数据集的额外验证研究或通过实际应用案例研究。
- 与该领域其他最先进模型进行比较分析,以更好地定位模型性能。
参考资料:
- Brocidiacono, M., Francoeur, P., Aggarwal, R., Popov, K., Koes, D., & Tropsha, A. (2022). BigBind: Learning from Nonstructural Data for Structure-Based Virtual Screening. https://doi.org/10.26434/chemrxiv-2022-3qc9t IF: NA NA NA
- Code: https://github.com/molecularmodelinglab/bigbind
- Date: https://bigbind.mml.unc.edu/BigBindV1.tar.bz2
— 完 —
点击这里关注我,记得标星哦~