摘要:达尔文进化论的核心观点——随机突变加自然选择——正面临来自计算生物学的重大挑战。诺丁汉大学和诺丁汉特伦特大学的联合研究团队利用机器学习技术分析了数千个大肠杆菌基因组,发现基因的获得和丢失并非完全随机,而是遵循可预测的模式。这项发表在《美国国家科学院院刊》的研究
信息来源:https://www.earth.com/news/discovery-evolution-not-random-can-be-predicted-pangenome-genetic-history/
达尔文进化论的核心观点——随机突变加自然选择——正面临来自计算生物学的重大挑战。诺丁汉大学和诺丁汉特伦特大学的联合研究团队利用机器学习技术分析了数千个大肠杆菌基因组,发现基因的获得和丢失并非完全随机,而是遵循可预测的模式。这项发表在《美国国家科学院院刊》的研究成果被主要作者詹姆斯·麦金纳尼教授称为"无异于革命性的",为合成生物学、精准医学和环境科学开辟了全新的应用前景。
研究团队通过分析细菌泛基因组中附属基因的分布模式,发现某些基因倾向于同时出现在基因组中,而另一些基因则表现出明显的互斥性。这种非随机的共现和排斥模式表明,基因之间存在复杂的相互作用网络,这些相互作用在很大程度上决定了进化的方向和结果。更重要的是,研究人员开发的随机森林机器学习模型能够根据基因组中已有的基因组合,准确预测特定基因的存在概率。
这一发现不仅挑战了传统的进化理论框架,也为解决抗生素耐药性、开发新型疫苗和构建工程菌株等现实问题提供了新的理论工具。通过理解基因间的相互依赖关系,科学家们可以更有效地预测和干预病原菌的进化轨迹,为公共卫生防控策略的制定提供科学依据。
泛基因组分析揭示的基因互作网络
细菌基因组的复杂性远超过去的认知。除了所有个体共享的核心基因集外,细菌还携带大量的附属基因,这些基因在不同菌株间存在显著差异。完整的基因库被称为泛基因组,其中附属基因的动态变化是细菌适应环境、获得新功能的关键机制。
研究团队构建了一个庞大的基因存在-缺失矩阵,行代表不同的细菌菌株,列代表各种附属基因。通过对这个高维数据集的深度挖掘,他们发现了基因共现的统计规律。某些基因家族总是成群出现,这通常意味着它们参与同一条生化途径或执行相关的生物学功能。例如,负责某种抗生素合成的基因往往与编码相应转运蛋白的基因共同出现。
相反,另一些基因表现出明显的互斥性,很少在同一基因组中共存。这种现象可能源于功能冗余——两个基因执行相似的功能,因此细菌只需要保留其中一个。也可能是由于基因产物之间存在拮抗作用,同时携带这些基因对细菌有害。
诺丁汉特伦特大学的玛丽亚·罗莎·多明戈-萨纳内斯博士解释说:"我们发现,当某个特定的基因家族已经存在时,某些基因家族永远不会出现在基因组中,而在其他情况下,某些基因非常依赖于不同基因家族的存在。"
这种基因间的相互依赖关系形成了复杂的网络结构,类似于社会网络中的群体聚集现象。通过网络分析方法,研究人员识别出了多个基因模块,每个模块内的基因高度关联,模块间的联系相对较少。这种模块化结构可能反映了细菌功能组织的基本原理,也为理解基因组进化的约束机制提供了新视角。
人工智能预测模型的技术突破
研究团队采用的随机森林算法是一种基于决策树的集成学习方法,特别适合处理高维生物数据中的复杂非线性关系。该算法通过构建多个决策树并综合它们的预测结果,能够有效避免过拟合问题,同时提供可解释的预测模型。
在模型训练过程中,研究人员将基因组数据随机分为训练集和测试集,确保模型的泛化能力。训练完成后,模型能够根据给定基因组中已有的附属基因谱,预测特定目标基因的存在概率。令人惊讶的是,该模型对相当大比例的附属基因都能实现准确预测,预测准确率显著高于随机猜测。
模型的成功不仅证明了基因间相互作用的客观存在,也为量化这种相互作用的强度提供了工具。通过分析模型的特征重要性,研究人员能够识别出对特定基因预测贡献最大的"伙伴基因"。这些信息对于理解基因功能、设计实验干预策略都具有重要价值。
更重要的是,该方法具有良好的可扩展性。研究团队已经开始将类似的分析方法应用于其他细菌物种,初步结果表明基因共现模式在不同物种间具有一定的保守性,这暗示着基因相互作用可能反映了生物学上的普遍规律。
诺丁汉大学的艾伦·比万博士总结道:"基因之间的这些相互作用使得进化的各个方面在某种程度上是可以预测的,而且,我们现在有了可以做出这些预测的工具。"
抗生素耐药性防控的新策略
这项研究的最直接应用价值体现在抗生素耐药性的监测和防控方面。传统的监测方法主要关注已知的耐药基因,但这种被动的监测策略往往滞后于耐药性的实际传播。基于基因共现模式的预测方法为早期预警提供了新的可能性。
通过识别与耐药基因高度关联的"支持基因",研究人员可以建立更敏感的监测网络。当这些支持基因开始在细菌群体中扩散时,即使耐药基因尚未大规模出现,也可以提前发出预警信号。这种前瞻性的监测策略对于医院感染控制、食品安全监管和环境污染防治都具有重要意义。
更进一步,理解基因间的依赖关系还为开发新型抗菌策略提供了思路。传统的抗生素直接攻击细菌的关键生理过程,但细菌可以通过获得耐药基因来规避这种攻击。如果能够同时干扰耐药基因的支持网络,就可能大幅降低耐药性的进化速度。
比万博士指出:"如果我们试图消除抗生素耐药性,我们不仅可以针对焦点基因,还可以针对其支持基因。这种方法可以帮助合成新的基因结构,从而可能研制出新的药物或疫苗。"
实际上,一些制药公司已经开始探索基于基因网络的组合疗法。通过同时攻击相互依赖的多个靶点,这种策略有望显著延缓耐药性的产生,为抗生素的有效使用争取更多时间。
合成生物学的设计原理
在合成生物学领域,这项研究为工程菌株的设计提供了重要的理论指导。传统的基因工程往往采用试错方法,将感兴趣的基因导入宿主细胞,然后观察结果。这种方法效率低下,成功率不高,主要是因为忽略了基因间的相互作用。
基于基因共现模式的设计策略则不同。通过预测哪些基因组合容易协同工作,哪些组合可能产生冲突,工程师可以更理性地设计基因线路。这不仅可以提高工程菌株的稳定性和性能,还可以减少意外副作用的发生。
在生物制药领域,这种方法已经显示出巨大潜力。许多药物分子的合成需要多个酶的协调作用,而这些酶对应的基因往往来自不同的生物体。通过分析基因共现模式,研究人员可以预测哪些基因组合最有可能在异源宿主中正常工作,从而大幅提高代谢工程的成功率。
环境修复是另一个重要应用领域。污染物降解往往需要复杂的酶系统,涉及多个基因的协调表达。通过理解这些基因间的相互依赖关系,研究人员可以设计出更高效的生物修复菌株,为环境治理提供新的工具。
进化理论的深层影响
这项研究的理论意义远超其实际应用价值。长期以来,进化生物学界普遍认为突变是随机的,自然选择是进化的主要驱动力。虽然这一观点在宏观层面依然正确,但在基因组微观结构的演化方面,显然存在更复杂的规律。
基因共现模式的发现表明,基因组的演化并非完全的随机游走,而是在一定的约束条件下进行的有偏随机过程。这些约束来自基因产物之间的物理化学相互作用、代谢网络的拓扑结构,以及细胞生理的基本要求。
这种观点与近年来兴起的"进化发育生物学"理念高度一致。该领域强调发育过程的约束对进化轨迹的影响,认为并非所有的形态变异都是等概率的。类似地,基因组层面的研究表明,并非所有的基因组合都是等概率的,某些组合明显更容易出现和维持。
更深层次的问题涉及进化的可预测性。如果基因组的演化确实遵循某些统计规律,那么在特定的环境压力下,不同的生物群体是否会收敛到相似的基因组结构?这个问题不仅具有理论意义,对于预测病原菌的进化趋势、评估生物技术的风险也具有重要的实践价值。
研究团队强调,他们的发现并不意味着进化是完全确定性的。许多基因的行为仍然具有很大的随机性,局部的历史事件和环境波动依然会产生重要影响。然而,在随机性的背后,确实存在可以被科学方法揭示和利用的规律性结构。
麦金纳尼教授总结道:"通过证明进化并不像我们曾经认为的那样随机,我们为合成生物学、医学和环境科学的一系列可能性打开了大门。"这一发现不仅丰富了我们对生命演化机制的理解,也为利用这些机制服务人类社会提供了新的科学基础。
随着计算能力的不断提升和生物数据的快速积累,基于大数据和人工智能的进化研究必将揭示更多生命奥秘,为人类应对21世纪的重大挑战提供强有力的科学武器。
来源:人工智能学家