摘要:为了解决这一问题,康奈尔大学的研究人员推出了 plantCaduceus,这是一个利用独特架构并在多种被子植物基因组上进行预训练的 DNA 语言模型。
编辑 | 白菜叶
由于植物基因组的多样性和复杂性,跨物种基因注释和适应度建模在植物基因组学中仍然是一项重大挑战,尤其是在非模式生物中。
为了解决这一问题,康奈尔大学的研究人员推出了 plantCaduceus,这是一个利用独特架构并在多种被子植物基因组上进行预训练的 DNA 语言模型。
该模型跨物种移植性极强,用拟南芥数据微调后,在进化差异近 1.6 亿年的玉米的预测中表现出极强性能:剪接供体预测比现有最佳 DNA 语言模型高 1.45 倍,翻译起始位点预测高 7.23 倍。
PlantCaduceus 拥有捕捉跨植物物种保守序列模式的能力,从而能够对从基因组注释到复杂的适应度分析等各种基于序列的任务进行精准预测。
总而言之,它有望成为推进基础植物基因组学研究和作物改良的重要变革工具。
该研究以「Cross-species modeling of plant genomes at single-nucleotide resolution using a pretrained DNA language model」为题,于 2025 年 6 月 9 日发布在《PNAS》。
过去 20 年,有超过 1000 个植物基因组被发表,未来几十年这一数字还将继续大幅增长。解析这些基因组在转录和翻译水平上的功能元件及其适应性效应,对于推进植物基因组学和作物育种至关重要。
植物基因组在大小、组成和复杂性方面表现出极大的多样性,即使在近缘物种之间也存在显著差异。
并且,通过实验方法生成所有植物基因组的类似基因组资源,既耗时又昂贵,非常不切实际。目前,科学家只在拟南芥、水稻和玉米等模式植物身上获得了大量基因组资源。所以,有效利用已有的数据信息训练人工智能来完成解析任务是当下的最佳方案。
DNA 语言模型内在挑战
这种方案已经在蛋白质领域得到广泛应用。但是,与蛋白质语言模型相比,DNA 语言模型面临着巨大的挑战。
在 AI 模型中,DNA 序列往往被分解成称为标记(token)的单个单元,这些标记可以是单个核苷酸或 k-mer。但是,包括植物在内的真核生物含有不同比例的重复序列,这使得预训练任务变得复杂。
考虑到语言模型预先训练的目的是预测下一个标记,或者标记在序列中被任意屏蔽,因此更容易预测但不一定能改善下游应用的重复序列可能会降低模型的整体质量。
此外,非编码区域的保守性低于编码区域,如果将整个基因组纳入预训练,则可能导致偏差。
与蛋白质序列不同,双链 DNA 建模需要考虑反向互补碱基配对,以及同时考虑上游和下游序列的双向模型。
PlantCaduceus
为了应对这些挑战,康奈尔大学的研究人员推出了 PlantCaduceus,这是一个基于 Caduceus 架构预训练的 DNA 语言模型,该架构基于 16 个被子植物基因组进行训练。
Caduceus 是一个基于 Mamba 架构并支持反向互补 (RC) 等变的 DNA 特异性模型。受 GPN(基因组预训练网络) 的启发,Caduceus 能够有效预测拟南芥的全基因组变异效应。
PlantCaduceus 采用单核苷酸标记,能够在不同植物基因组中以碱基对分辨率进行精确建模。类似地,研究人员遵循 GPN 的数据处理策略,通过下采样非编码区域和降低重复序列的权重,生成了一个用于预训练的无偏基因组数据集。
相比之下,其他公开的 DNA 语言模型(例如 AgroNT 和 Nucleotide Transformer)使用整个基因组进行预训练,这可能会引起对某些基因组和重复序列的偏向。
图示:PlantCaduceus 概述。(来源:论文)
性能评估
研究人员在涉及转录、翻译和进化约束建模的多项任务中评估了 PlantCaduceus 卓越的跨物种性能。
例如,即便拟南芥与玉米存在 1.6 亿年的进化分歧,研究人员用拟南芥数据对它微调后,在玉米的预测中却表现出了最佳性能:在玉米剪接供体预测方面比现有最佳 DNA 语言模型高出 1.45 倍,在玉米翻译起始位点预测方面比现有最佳 DNA 语言模型高出 7.23 倍。这表明 PlantCaduceus 拥有成为全面理解植物基因组基础模型的潜力。
PlantCaduceus 有潜力准确注释任何新测序的被子植物基因组。与在有限的标记数据上容易过拟合的监督深度学习模型不同,PlantCaduceus 在转录、翻译和进化约束建模方面表现出强大的跨物种性能,即使对于预训练中未包含的物种也是如此。
这说明,通过在大规模基因组数据集上进行自监督预训练,PlantCaduceus 已捕获广泛的进化保守性和 DNA 序列语法。PlantCaduceus 的跨物种预测能力可以显著加速植物基因组学研究,并通过提供跨不同植物物种的准确注释和洞察,助力「千种植物基因组计划」等项目。
结语
在探索阶段,研究人员还预训练了一个精简版的 PlantCaduceus(4M 参数),并通过变异掩蔽的计算机模拟诱变,评估了其使用模拟变异的参考等位基因预测准确率。结果显示,在变异效应预测任务中,影响性能的主要因素是模型容量,而非上下文窗口大小。
此外,512 bp 的上下文长度使 PlantCaduceus 能够在 NVIDIA 3090 等广泛使用的 GPU 上高效运行,从而使更多的研究人员能够轻松地使用它。
在未来的工作中,该团队计划整合来自不同谱系(例如裸子植物)的更多植物基因组,从而捕捉更广泛的进化保守性。
他们准备使用更长的上下文窗口对 PlantCaduceus 进行预训练,使其能够捕获长距离 DNA 相互作用,并更好地处理受益于长距离顺式效应的任务,例如等位基因特异性表达、染色质状态预测和染色质相互作用图谱。此外,探索如何更好地标记植物基因组中的重复序列也同样很有意义。
研究人员在论文结尾写道:「这些方法将使我们能够突破 PlantCaduceus 的极限,使其成为推进基因组研究和促进作物改良的更强大、更通用的基础模型。」
预训练基因组:
用于微调的数据集:
预训练模型:
预训练和微调代码:
来源:红红爱科学