“RNA才是细胞的计算引擎”[0]
在我们的这个小分子药物预测工作(RNAmol)中,以及之前的小RNA药物预测工作(OligoFormer)中,我们都尝试用一个简单的、RNA特有的语法(例如A-U,G-C,G-U)去表征RNA分子,而没有用到物理学意义上的三维结构模型或全原子模型。这种特异而简单的语法,不仅在上述工作中取得了超出预期的结果,也让我们更加相信一个在RNA领域耳熟能详的学术假说:生命的起源是RNA的世界。这个看似简单的RNA语言或许具备了生命起源甚至宇宙起源的基本要素:信息的复制、转递和变异。希望我们的这些尝试和实践,不仅能对药物设计领域有所启发,也能对生命科学和计算科学的其他方向的研究起到抛砖引玉的作用。
2025年6月24日,清华大学生命学院鲁志课题组和合作者在《自然 - 计算科学》(Nature Computational Science)发表了题为(通过数据扰动与增强模型进行RNA-配体相互作用预测)(RNA-ligand interaction scoring via data perturbation and augmentation modeling)的研究论文[1]。该研究突破了传统药物设计方法依赖三维结构的局限,针对RNA结构匮乏的现实,提出了一种基于序列输入的RNA-小分子相互作用AI预测模型RNAsmol。该模型为靶向RNA的小分子药物研发提供了高效计算工具,为不依赖三维结构的人工智能辅助药物设计提供了新的方案和思路。
背景介绍
目前绝大多数的临床药物以蛋白质作为靶标,然而,许多蛋白质由于缺乏合适的结构口袋,常被认为是“难成药”或“不可成药”的。在人类的2万个左右的蛋白编码基因(占人类基因组总长度的1.5%左右)中,大约有10%-15%与疾病直接相关;而在这些基因中,据估计仅有700-900 个的蛋白产物是可以成药的(仅占人类基因组总长度的0.05%左右)[2,3]。另一方面,人类基因组的约70%甚至更多都会被转录成RNA,其中大多是非编码RNA (ncRNA)。
因此,近年开始有越来越多的研究者试图将RNA作为药物靶标,并初步证明了这一策略的可行性[4-6]。新药研发成本昂贵且周期漫长,使用计算机辅助药物设计能够极大地降低研发成本,助力并加速靶向RNA的小分子药物的研发进程。然而,由于公开的RNA-小分子互作及已知的高分辨率RNA结构数据匮乏,开发数据驱动的深度学习模型仍面临诸多挑战。
研究内容
鲁志实验室长期致力于RNA生物信息学研究,在RNA-siRNA/shRNA、RNA-protein、RNA-ligand的计算设计上积累了大量科研经验[7-13]。在这项最新发表的工作中,作者利用数据扰动和增广策略针对RNA-小分子结合开发深度学习模型,搭建了用于RNA-小分子互作打分的AI预测方法RNAsmol。与其他计算方法相比,RNAsmol不仅具有更优异的预测性能,还具备广泛应用于多种药物筛选场景的潜力,对很多没有三维结构信息的RNA分子也依然可以进小分子药物预测。
1. 基于数据扰动和增广的深度学习框架RNAsmol
该工作提出的RNAsmol框架,是一种结合数据扰动和数据增广策略的深度学习方法。在该框架中,数据扰动通过对训练数据进行随机扰动模拟真实环境中的数据多样性,从而帮助模型更好地学习到RNA-小分子结合的规律。而数据增广则通过在已知互作的基础上生成虚拟的负样本和潜在的未标记样本,增加模型对未知空间的识别能力。这种策略不仅提高了模型的鲁棒性,还帮助其更好地捕捉到不同类型的相互作用模式。此外,该模型结合基于图的分子特征表示方法和图扩散卷积模块对药物小分子进行结构建模,通过基于注意力机制的特征融合模块在多个模态下对靶标和药物分子特征进行加权整合,最终实现RNA靶标与小分子之间的打分预测。
2. RNAsmol在数据扰动空间中能准确分类RNA-小分子相互作用
在数据扰动空间中,RNAsmol通过扰动策略有效地减少了真实负样本与未知互作空间之间的偏差。该策略通过对已知的负样本进行扰动,生成潜在的“负例”样本,同时通过数据增广技术扩展已知的正例和负例样本的边界。这使得模型能够更好地理解RNA与小分子之间的结合规律,尤其是在数据不均衡的情况下,避免了模型偏向已知的正负样本。
实验结果表明,RNAsmol在10折交叉验证中的表现超过了传统方法,平均AUROC(曲线下面积)指标提升约8%,同时在未见样本的评估中,性能提升了约16%。这一优势证明了该方法在稀疏数据场景中的有效性,进一步推动了RNA-小分子结合预测的计算研究。
3. RNAsmol作为虚拟筛选工具能准确区分诱饵分子与真实配体
在虚拟筛选的应用中,RNAsmol展现出独特的优势。与传统依赖于结构信息的筛选方法不同,RNAsmol完全基于RNA的序列信息进行预测。因为许多与疾病相关的RNA靶点(如lncRNA)的三维结构数据常常难以获得,RNAsmol能够弥补这一数据缺口实现对这些靶点的预测筛选。实验结果表明,RNAsmol在区分诱饵分子与真实配体时,成功将排序得分提高了约30%。因此,RNAsmol在各类RNA靶向药物筛选中具有广泛的适用性,通过该方法可以更加高效地筛选潜在的药物分子。
结语
总的来说,该研究通过探究基于数据扰动和增广的深度学习训练策略在数据匮乏场景的应用,为靶向RNA药物研发的计算建模提供了新思路。
清华大学生命学院鲁志副教授与南昌大学徐振江教授为论文通讯作者。清华大学已出站博士后(现哈尔滨工业大学副研究员)马洪丽为文章第一作者。本课题得到来自国家重点研发计划、国家自然科学基金、“生物信息学”教育部重点实验室、“绿色生物制造”全国重点实验室、清华大学精准医疗研究院、Bayer制药公司等经费的资助支持。
参考文献:
0. RNA: 掌控生命后台 《环球科学》(Scientific American) 2024年7月刊封面文章
1. Ma, H., et al., RNA-ligand interaction scoring via data perturbation and augmentation modeling. Nature Computational Science, 2025
2. Warner, K.D., et al., Principles for targeting RNA with drug-like small molecules. Nature Review Drug Discovry, 2018
3. Knox, C., et al., DrugBank 6.0: the DrugBank Knowledgebase for 2024. Nucleic Acids Res, 2024
4. Sheridan, C., First small-molecule drug targeting RNA gains momentum. Nature Biotechnology, 2021
5. Howe, J.A., et al., Selective small-molecule inhibition of an RNA structural element. Nature, 2015
6. Aguilar, R., et al., Targeting Xist with compounds that disrupt RNA structure and X inactivation. Nature, 2022
7. Bai, Y., et al., OligoFormer: an accurate and robust prediction method for siRNA design. Bioinformatics, 2024
8. Zhao, W., et al., POSTAR3: an updated platform for exploring post-transcriptional regulation coordinated by RNA-binding proteins. Nucleic Acids Res, 2022
9. Li, Y., et al., Identification of high-confidence RNA regulatory elements by combinatorial classification of RNA-protein binding sites. Genome Biology, 2017
10. Tan, X., et al., Tiling genomes of pathogenic viruses identifies potent antiviral shRNAs and reveals a role for secondary structure in shRNA efficacy. PNAS, 2012
11. Tan, X., et al., Systematic identification of synergistic drug pairs targeting HIV. Nature Biotechnology, 2012
12. Lu, Z.J. and D.H. Mathews, OligoWalk: an online siRNA design tool utilizing hybridization thermodynamics. Nucleic Acids Res, 2008
13. Lu, Z.J. and D.H. Mathews, Efficient siRNA selection using hybridization thermodynamics. Nucleic Acids Res, 2008
论文链接:
https://www.nature.com/articles/s43588-025-00820-x
原文链接:
https://life.tsinghua.edu.cn/info/1131/6776.htm