01 背景和动机
RNA二级结构对其功能和三级结构形成至关重要,但现有预测方法仍有明显局限。传统热力学模型难以处理复杂结构。深度学习方法虽然精准,但泛化能力差,难以适应未见过的RNA序列,主要原因在于结构数据稀缺、质量参差不齐。为此,本文提出一种新思路:从碱基对的局部结构单元出发,构建基于物理能量的先验信息,引导神经网络学习更稳健的结构特征,从而提升模型的泛化能力。
02 方法
BPfold是一种新型的RNA二级结构预测方法,它通过结合物理热力学先验和深度学习技术,旨在提高RNA结构预测的准确性和泛化能力。与传统的深度学习方法依赖大量标注数据的方式不同,BPfold通过构建基于碱基对基序(base pair motif)的能量库,利用物理学的知识来补充数据的不足,从而增强模型的泛化能力和预测精度(图1)。BPfold的核心创新在于,它并非直接从RNA序列中推断整个二级结构,而是首先将RNA序列分解为一系列局部的基序单元,并为每个基序计算出热力学能量,这些能量作为模型的输入,从而指导深度学习模型对RNA二级结构的预测。
在模型的实现中,BPfold首先构建了一个包含所有三邻碱基对基序的能量库,每种基序由一个碱基对及其上下游相邻的3个碱基组成。这些基序被分为三种类型:内发夹基序(BPMiH)、内链断基序(BPMiCB)和外链断基序(BPMoCB)。对于每种基序,使用BRIQ方法进行三维结构建模,并通过蒙特卡罗采样生成多种结构候选。通过密度泛函理论(DFT)和统计学方法,计算出每个基序的热力学能量,并将这些能量分数存储在能量库中,以供后续查询。BPfold通过查询这些能量信息,为RNA序列中的每一对碱基对构建两个能量图(内外基序能量图)。这些能量图作为神经网络的输入,帮助模型理解RNA序列的局部结构特征,并指导后续的二级结构预测。
为了更好地融合这些结构先验信息,BPfold引入了Base Pair Attention机制。该机制通过卷积层对能量图进行处理,提取出能量图中的空间特征。然后,利用自注意力机制将RNA序列的特征与能量图结合,增强模型对碱基对相互作用的理解。在这一过程中,能量图中的每个基序的热力学信息都会影响模型对RNA序列的预测,帮助模型更精确地识别可能的碱基配对。通过结合transformer架构,BPfold能够捕捉到远程碱基对之间的相互关系,提高模型对复杂结构的建模能力。
在训练过程中,BPfold使用PyTorch框架进行训练,并采用交叉熵损失函数来优化模型,以减少预测结果与实际RNA结构之间的误差。为了提高训练效率并避免过拟合,作者采用了5折交叉验证和早停策略。此外,BPfold还设计了推理阶段的结构精修过程,在输出的配对矩阵上应用物理约束,去除不合理的配对和孤立的碱基对,确保最终预测的RNA二级结构符合生物物理规律。
通过这种方式,BPfold不仅提高了RNA结构预测的准确性,还克服了传统深度学习方法在数据稀缺和未知RNA家族上的泛化能力问题。结合物理能量先验,BPfold能够在较小的数据集上进行有效训练,并对未见过的RNA家族保持较好的预测性能。
03 实验
在实验部分,作者对BPfold进行了广泛的验证(表1),涵盖了序列内测试和跨家族测试两种不同的实验设置。在序列内测试中,BPfold在多个标准数据集上表现优异,尤其是在bpRNA-TS0和ArchiveII数据集上取得了显著成绩。BPfold的F1分数分别为0.658和0.820,远超其他深度学习模型,如SPOT-RNA和MXfold2。这表明BPfold能够在训练数据集的分布范围内准确预测RNA二级结构,并且在推理速度上也表现出色,能够在数秒内完成1000nt以下RNA序列的预测。
更具挑战性的实验是在跨家族数据集上的测试。如表2所示,作者使用了Rfam12.3–14.10数据集,该数据集包含了来自不同RNA家族的大量未见序列。在这些未见RNA家族的测试中,BPfold依然表现出色,F1分数达到0.689,优于其他深度学习方法和传统方法。消融实验进一步验证了基序能量在提升模型性能中的重要作用。当去除基序能量信息时,BPfold在未见数据集上的表现显著下降,证明了基序能量对BPfold泛化能力的重要贡献。
04 总结
BPfold结合了物理能量先验和深度学习,解决了RNA二级结构预测中的数据不足和泛化能力差的问题。它通过碱基对基序能量和attention机制,提高了预测准确性,并能处理复杂结构。推理速度也很快。尽管如此,BPfold在长序列和复杂配对的预测上仍有改进空间。未来,扩大基序范围和加入更多数据将进一步提升其性能。总体而言,BPfold为RNA二级结构预测提供了新的解决方案,具有广泛的应用潜力。
参考信息:https://www.nature.com/articles/s41467-025-60048-1
版权信息
本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号Cynthia_qin1114)进行删改处理。
本文为原创内容,未经授权禁止转载,授权后转载亦需注明出处。有问题可发邮件至qinxin@stonewise.cn