醋醋百科网

Good Luck To You!

「药物设计」全新药物设计方法:基于分子形状的生成模型

使用生成模型产生全新药物分子是当前的热门研究领域。西班牙庞培法布拉大学(Universitat Pompeu Fabra, UPF) Gianni De Fabritiis课题组最近在JCIM上发表了一种机器学习方法,可以依据种子化合物(seed compound)的三维形状(3D shape)及其药效团特征生成新分子。整个方法从图像分析领域中使用的生成模型汲取灵感,使用变分自编码器(variational autoencoder)在化合物的3D空间进行扰动后使用卷积神经网络(CNN)和递归神经网络(RNN)产生化合物的SMILES序列。由此产生的新骨架和官能团可以覆盖化学空间中与先导化合物具有类似性质的未开发区域。


—— 主要研究方法 ——


主要步骤:这套方法包括两个主要步骤:

1)形状表示(VAE):使用卷积神经网络(CNN)的变分自编码器来生成化合物的三维表示。在这个过程中,小分子的形状首先被Encode,而在Decode过程中,加入化合物分子药效团的空间特征,同时对基于形状的隐空间向量重新参数化,最后获得基于自编器方法的化合物空间表示方式。

2)SMILES生成(Captioning network): 将第1) 步生成的化合物表示再次使用3D卷积编码后,使用长短期记忆(LSTM)网络进行翻译,产生SMILES字符串。


相关数据:小分子训练数据从ZINC15中的drug-like子集中抽取,选择标准为分子量250~500,SMILES字符串长度小于60的化合物分子。对于实际体系,从DUD-E中选取了腺苷A2A受体(adenosine A2A receptor, AA2AR, PDB ID: 3eml),凝血酶(thrombin, THRB, PDB ID:1ype))和干细胞生长因子受体(KIT)。


模型训练:使用RDKit将小分子SMILES字符串转换为3D结构,并使用MMFF94力场及默认参数进行优化。小分子放置在边长为24A的方盒中,格点边长1A。在像素化之后,对疏水,方向,氢键给体,氢键受体和重原子5个通道进行了数据采集。训练基于形状的VAE模型时,将原始化合物像素的类型作为训练目标,使用binary cross-entropy和Kullback-Leibler divergence作为损失函数。同时将基于形状的VAE网络的输出作为Captioning网络的输入进行训练,以化合物的Canonical SMILES表示作为训练目标,以minimized multiclass logloss作为损失函数。在实际训练中,经过210,000次迭代,Captioning网络呈现收敛。程序框架使用PyTorch搭建,整个训练过程使用两块NVIDIA GeForce GTX 1080Ti GPU,用时10天。


全新分子生成:主要包括两种策略。自编码器参数微扰和RNN采样。其中自编码器参数微扰是对隐空间中的向量增加随机噪音,利用噪音强度控制生成分子的偏离程度。RNN采样则是采取max-sampling策略,在生成SMILES串时,在字符空间选取下一个最可能的字符。使用NIVDIA Titan V,生成速度约为每秒250个分子。


——结果与讨论——


模型表现:从ZINC数据库中选取一百万个分子用于测试。对每个分子,使用RDKit将SMILES字符串转化为3D构象,使用自编码器获得分子的形状表示,最后使用Captioning网络生成SMILES字符串。在最后结果中,有1.74%的分子可以重现原来的SMILES字符串,65%的结果可以被解析。一般来说,重新生成的分子包括如下变化:成环,并环,开环,脂肪链长度变化,非碳原子替代为同族元素。将生成的分子使用分子指纹进行相似性分析,这些分子的相似程度明显高于随机配对的分子。对于分子性质,这些分子基本能够重现原来种子分子的性质信息。重现性与SMILES字符串的长度有关,作者认为这可能与LSTM模型在处理长字符串时遇到的困难有关。在分子性质中,芳香环的数目比较容易重现,而氢键受体和氢键配体的数目重现会困难一些,这主要是由于芳香环在SMILES串中一般是小写字母,而氢键受体和配体一般是单一的重原子,也和周围环境有关。在实际使用中,单独使用药效团往往无法获得在形状上匹配的分子。此外,这种方法对平移,旋转,以及构象有一定敏感性。前两者产生的分子在平均相似性上和原来分子相差不大,但如果使用对接构象,结果的相似性会有比较大的区别。将生成的分子对接到原先靶点中,与decoy分子一起进行打分排序,AUC得分低于实际配体表现,但是高于0.5,说明生成的分子在一定程度上还是与decoy分子有所区别。


——小结——

这个方法的优势在于生成focused library的时候不需要重新运行模型或是对隐空间再做更多复杂操作。在后续的研究中,可以通过提高形状精度和/或预先固定部分SMILES串来实现对已知先导化合物的优化,也可以通过对抗模型或强化学习来直接通过蛋白口袋的3D形状来生成分子,此外通过增加其他ADME的要求,也可以生成具有特定形状和性质的分子。


参考文献:

Miha Skalic, José Jiménez, Davide Sabbadin, and Gianni De Fabritiis. "Shape-Based Generative Modeling for de Novo Drug Design" Journal of Chemical Information and Modeling. DOI: 10.1021/acs.jcim.8b00706

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言