摘要:生命由分子构成。这些分子是构成我们自身、其他生命体以及整个世界的基本构件。然而,目前人类只识别了不到10%的天然小分子。那么,如果有一种人工智能能帮助我们找到剩下的90%呢?一旦实现,将可能带来医学诊断、药物发现、延寿技术、电池与电子材料等多个领域的巨大突破。
生命由分子构成。这些分子是构成我们自身、其他生命体以及整个世界的基本构件。然而,目前人类只识别了不到10%的天然小分子。那么,如果有一种人工智能能帮助我们找到剩下的90%呢?一旦实现,将可能带来医学诊断、药物发现、延寿技术、电池与电子材料等多个领域的巨大突破。
最近,一篇论文提出了一个名为“DreaMS”的自监督学习模型,全称是《Self-supervised learning for molecular representations from millions of tandem mass spectra using DreaMS》。
虽然论文本身相当技术化,但其中的核心思想是明确的:利用AI解析海量的天然分子光谱数据,从而建立一个几乎涵盖所有分子的“图谱”。
我们先回顾一下背景。人体与一切生命体都是复杂的化学系统,由功能各异的分子构成,比如代谢分子、愈合分子和免疫分子等。但我们只识别了不到10%的天然小分子。其余90%,依然是未知的化学宇宙。
科学家们用于识别分子的主要工具,是“液相色谱-串联质谱”(LC-MS/MS)。简单说,它可以将样本中的分子分离并破碎,生成独特的“分子指纹图谱”。但问题在于,这些光谱虽然易得,却极难解读。如今我们掌握的数亿条光谱中,仅有不到10%能够被准确地对应到已知分子结构,其余的则是“黑暗数据”。
DreaMS试图解决的正是这一难题。它通过自监督学习方法,在没有标注数据的情况下,从上亿条天然分子的质谱图中“自学成才”。你可以将其类比为一个人阅读大量书籍、从上下文中逐步学会语言,而无需每个单词都由人教。DreaMS读取的数据来自GNPS数据库,研究人员提取了大约2.01亿条未标注的质谱数据用于训练。
模型训练完成后,AI不仅能解读这些未知分子的光谱特征,还能推测它们的分子属性与结构特征,并将它们映射到一个名为“DreaMS图谱(Atlas)”的多维空间之中。在这个图谱中,相似的分子彼此靠近,差异显著的则相距遥远。其原理与GPT等语言模型中的词向量空间非常类似。
这一图谱的结构揭示了一个惊人的事实:即使是90%以上从未识别的分子,也在整体结构上展现出高度的相互联系。这说明,DreaMS已经捕捉到了分子之间潜在的语义规律。任何一个天然分子,只需通过LC-MS处理,生成光谱并输入DreaMS,即可获得它在图谱中的位置,并据此了解其“邻居”是谁、可能具有什么功能。
更重要的是,研究人员发现,许多未知分子在图谱中远离所有已知分子。这暗示着大量化学结构、性质都与我们已知体系完全不同的新分子,仍等待着人类发现。这不仅拓展了药物和材料研发的边界,更提供了一种系统化探索“未知分子宇宙”的方法。
举个具体例子:研究人员分析了多种日常食品——橘子、葡萄、西红柿、鳄梨、咖啡、牛奶、薯片、奥利奥、鸡肉、牛肉等——提取分子并生成光谱,再送入DreaMS。AI所生成的图谱成功将植物性、动物性与饮品类食品聚类得非常清晰,完全符合生物分类系统。关键在于,AI并未接触任何食品来源的先验知识,仅凭分子光谱就还原出了生物化学上的对应关系,这无疑是对其有效性的有力验证。
还有一些更惊人的发现。图谱中,银屑病(psoriasis)与农业常用杀菌剂exoxystrobin的分子光谱呈现出非常紧密的关联。这并不能直接说明因果,但显然值得进一步研究。同样的,图谱还揭示了一些植物代谢物在完全不同植物间的共现关系,以及一类脂类分子与2型糖尿病、脑癌、肺癌、肾癌之间的潜在联系。这些都为疾病机制研究提供了新的线索。
研究人员还通过微调模型,让DreaMS具备判定某分子是否符合“Lipinski's Rule of Five”(衡量分子是否适合作为药物的一组规则)的能力。这使得我们可以从海量天然分子中快速筛选出潜在的新药物候选分子。
此外,团队还训练DreaMS识别分子中是否含氟。氟元素因其化学稳定性被广泛用于药物、特氟龙、制冷剂、高性能塑料和半导体中。然而,传统方法很难从光谱中识别氟的存在。DreaMS在这个任务上表现极佳:预测含氟分子的准确率高达91%,远高于旧方法的51%。
这些只是初步应用的冰山一角。理论上,DreaMS还可以进一步被训练,用于识别抗癌分子、抗衰老分子、降解塑料的分子,甚至捕捉那些可能改变我们整个材料科学的“外星分子”。
当前的DreaMS尚不能直接从光谱中重建出完整的分子结构,但它已经朝这个终极目标迈出了重要一步。
来源:老胡科学