摘要:生命科学的疆域正在以前所未有的速度扩张,而在这场探索的浪潮之巅,“基因编辑”无疑是最耀眼的灯塔之一。CRISPR技术的出现,让我们如同拥有了一支能够精确改写生命密码的“笔”,可以关闭、开启甚至修复特定的基因。这项能力为我们揭示基因功能、理解疾病机理、开发新疗法
引言
生命科学的疆域正在以前所未有的速度扩张,而在这场探索的浪潮之巅,“基因编辑”无疑是最耀眼的灯塔之一。CRISPR技术的出现,让我们如同拥有了一支能够精确改写生命密码的“笔”,可以关闭、开启甚至修复特定的基因。这项能力为我们揭示基因功能、理解疾病机理、开发新疗法打开了无限可能。然而,一个巨大的挑战横亘在我们面前:细胞内有数万个基因,它们交织成一张复杂得令人难以想象的调控网络。如果我们扰动(perturbation)其中一个或几个基因,细胞的“内心世界”,也就是它的基因表达谱(transcriptional responses),会发生怎样的连锁反应?
这是一个组合爆炸的难题。穷尽所有可能的基因组合扰动并进行实验,无异于想在地球上数清每一粒沙子。于是,研究人员将希望寄托于人工智能(Artificial Intelligence, AI),特别是深度学习模型。我们能否训练一个“AI神算子”,让它学习已有实验数据中的规律,然后精准预测那些我们从未做过的基因扰动会带来什么样的后果?近年来,诸如GEARS、scGPT等一系列复杂的模型应运而生,它们在各项评估指标上取得了令人瞩目的高分,似乎预示着一个“计算预测取代繁琐实验”的新时代即将来临。
但事实果真如此吗?这些看似强大的AI模型,是真的洞悉了基因扰动背后的生物学逻辑,还是仅仅学会了某种应试技巧,穿上了一件名为“高分”的皇帝新衣?8月25日,《Nature Biotechnology》的研究报道“Systema: a framework for evaluating genetic perturbation response prediction beyond systematic variation”,为我们揭示了这光鲜成绩背后的惊人真相,并锻造了一面名为“Systema”的“照妖镜”。这项工作不仅深刻地指出了当前领域内评估体系的“系统性”缺陷,更提供了一套全新的、更为严苛也更为公正的评判标准,引导我们走向真正有意义的生物学预测。
想象一场极端重要的考试,考题旨在检验学生对复杂物理定律的理解。考场上,有几位“优等生”,他们学习了海量的资料,构建了复杂的知识框架,他们就是我们所说的前沿AI模型,比如CPA、GEARS和scGPT。然而,考场里还坐着一个“捣蛋鬼”,他没学过任何高深的理论,只用了一个最朴素的策略:把所有练习题的答案取一个平均值,然后用这个平均值去回答所有问题。按照常理,这个“捣蛋鬼”应该得零分才对。
然而,当研究人员在一系列真实的基因扰动预测任务中进行这样的“模拟考试”时,一个令人匪夷所思的结果出现了。他们设计了两个极其简单的基线模型(baselines)。第一个被称为“扰动均值”(perturbed mean),其策略正如那位“捣蛋鬼”——无论要预测哪个基因扰动的结果,它都只给出一个答案:训练数据中所有被扰动过的细胞的平均基因表达谱。第二个基线模型是“匹配均值”(matching mean),稍微复杂一点,用于预测双基因组合扰动,它会将两个单基因扰动的结果进行平均。
研究人员在涵盖了三种不同技术、五个细胞系的十个公开数据集中,将这些简单的基线模型与那些先进的深度学习模型进行了正面交锋。评估的标准是领域内广泛使用的“皮尔逊相关系数”(Pearson correlation),这个指标衡量的是预测的基因表达变化与真实的实验结果之间的相似度,分数越高代表预测越准。
结果令人大跌眼镜。在大多数情况下,那两个简单的基线模型,尤其是“扰动均值”模型,其表现不仅不差,甚至与那些复杂的AI模型不相上下,有时甚至更优。以Adamson等人的数据集为例,在预测单个未知基因扰动的任务中,“扰动均值”基线模型取得了0.70的皮尔逊相关性分数(在所有基因上计算),而精心设计的GEARS模型得分为0.65,scGPT模型(经过微调后)得分为0.62。更令人震惊的是,CPA模型在此项任务上得分仅为0.02。在另一个名为Norman的数据集上,“扰动均值”基线也以0.49的分数,与GEARS的0.41和scGPT的0.40分相比毫不逊色。
这一现象引出了一个尖锐的问题:如果一个只需做初等数学平均运算的“模型”就能取得和花费巨大计算资源训练的深度学习模型相媲美的成绩,那么我们引以为傲的这些AI模型,究竟学到了什么?它们是真的理解了扰动特定基因A会如何特异性地影响下游通路,还是它们仅仅捕捉到了一个更表层、更普遍的现象?这就像一个学生,虽然每次考试都得分很高,但我们不禁怀疑,他究竟是真正掌握了知识,还是只是摸透了出题老师的套路?这个“高分之谜”背后,一定隐藏着一个被我们长期忽视的关键因素。
为了解开这个谜团,研究人员提出了一个核心概念:“系统性变异”(systematic variation)。这个词听起来有些抽象,但它的含义却直指问题的要害。所谓系统性变异,指的是在扰动实验中,所有被扰动过的细胞与正常的对照细胞(control cells)之间存在的、一种普遍的、一致性的转录差异。这种差异并非源于某个特定基因被扰动后产生的独特生物学效应,而是由一些更宏观、更普遍的因素所驱动。
这些因素可能来自多个层面。首先是实验设计的“选择偏见”(selection biases)。例如,一个研究项目可能集中扰动了一批功能相似的基因,比如都与“细胞周期”相关的基因。那么,无论你扰动这个集合里的哪个基因,细胞很大概率都会表现出相似的细胞周期停滞现象。这样一来,“细胞周期停滞”就成了一种系统性变异。AI模型会发现,只要预测“细胞周期停滞”,在大部分扰动上都能得分,它并不需要真正理解每个基因的独特功能。
其次是无法测量的“混杂变量”(confounding variables)。细胞的状态受到多种因素影响,如细胞所处的周期阶段、染色质的开放状态等。这些因素可能与基因扰动产生复杂的相互作用,导致所有受扰细胞都呈现出一种共同的“被处理过”的印记。
最后,也是最常见的一种,是细胞面对外界干扰时产生的“通用应激反应”(general stress response)。基因扰动对于细胞来说是一种压力,很多细胞会启动一套标准的应激程序,比如热休克反应、DNA损伤修复或是细胞凋亡。这些反应是广谱的,而非特异性的,因此也构成了系统性变异的一部分。
研究人员通过严谨的数据分析,证实了系统性变异在现有数据集中普遍存在,并且能量化其强度。他们以常用的 Adamson 和 Norman 数据集为例进行了深入剖析。在Norman数据集中,研究人员通过基因集富集分析(GSEA)发现,与对照组相比,整个扰动细胞群体在“对外界刺激的反应”、“对化学压力的反应”以及“细胞死亡的正向调控”等多个通路上都表现出显著的活性变化。这清晰地表明,这些细胞的反应中包含了强烈的、非特异性的系统性信号。
而在规模更大的Replogle RPE1数据集中,系统性变异的证据更为直观。分析显示,在细胞周期分布上,扰动组和对照组存在巨大差异。高达46%的扰动细胞被“卡”在了G1期,而在对照组中这一比例仅为25%。这种大规模的细胞周期停滞,正是由p53阳性的RPE1细胞在面对基因组不稳定性时普遍产生的保护性反应所驱动的。这再次证明,一种强大的系统性效应主导了细胞的反应。
为了更系统地衡量这种效应,研究人员设计了一种巧妙的量化方法。他们将每个特定基因扰动产生的表达变化向量与一个代表“平均扰动效应”的向量进行比较,计算它们之间的余弦相似度。如果相似度高,说明大多数特定扰动的方向都和“大部队”的平均方向差不多,即系统性变异程度高。分析结果显示,不同的数据集系统性变异的程度差异很大,并且AI模型的预测性能与系统性变异强度呈现惊人的正相关关系(例如,GEARS模型得分与系统性变异的相关系数达到了0.95)。
至此,真相大白。AI模型之所以能取得高分,很大程度上不是因为它们精准地预测了每个基因扰动的“个性”,而是因为它们敏锐地捕捉并复制了所有扰动的“共性”——也就是系统性变异。传统评估指标就像一个有漏洞的考官,它把对“共性”的正确描述也计入了分数,导致了模型表现的严重虚高。我们以为我们正在评估模型解决具体生物学问题的能力,但实际上,我们只是在奖励它们识别并重复这种普遍存在的背景信号的能力。这件“皇帝的新衣”必须被揭穿。
发现了问题的根源,接下来就需要一把能够修正偏差的“新标尺”。研究人员为此开发了“Systema”框架,其核心思想在于一个巧妙的转变:改变评估的参考点(reference point)。
传统的评估方法,是将预测的扰动后细胞状态与“对照细胞”状态进行比较。这就像在一个城市里,我们用市政厅(对照细胞)作为唯一的参照物,来描述每个市民(扰动细胞)的位置。在这种“绝对坐标系”中,如果所有市民都因为某个全市范围的活动(系统性变异)而集体向东移动了一公里,那么每个市民的坐标都会发生巨大变化。一个模型只要能预测出“大家都会向东移动”,就能获得高分。
Systema框架则提出了一种“相对坐标系”的评估方法。它不再以“对照细胞”为参照,而是引入了一个新的参照点——“扰动质心”(perturbed centroid),也就是所有被扰动细胞群体的平均状态。现在,我们评估一个模型对特定基因扰动的预测是否准确,是看这个预测结果与真实的扰动状态之间的差异,而这一切都是相对于“所有其他扰动细胞的平均状态”来进行的。
回到刚才的城市比喻,这相当于我们不再以市政厅为参照,而是以“所有市民的平均位置”作为新的参照中心。现在,要描述张三的独特位置,我们看的是他相对于“大家平均位置”的那个独特偏移量。那个集体向东移动一公里的系统性效应,在这个新的坐标系里被完美地“抵消”了。通过这种方式,我们只关注每个扰动相对于“平均扰动”的“特异性效应”(perturbation-specific effects)。
这个看似简单的参考点变换,却如同炼金术中的点金石,瞬间改变了整个评估格局。研究人员使用Systema框架重新评估了所有模型在同样十个数据集上的表现。结果是颠覆性的。之前的高分瞬间蒸发,性能得分大幅跳水。在新的评估体系下,大多数模型的皮尔逊相关系数都在零值附近徘徊。例如,在Adamson数据集上,之前表现优异的scGPT模型,分数从0.79骤降至0.16。而那个曾经的“优等生”——“扰动均值”基线模型,得分更是直接归零。
Systema框架的分析有力地证明,当前的基因扰动预测任务比我们普遍认为的要困难得多。它像一面“照妖镜”,让模型的真实能力无所遁形。那些由系统性变异支撑起来的虚高分数被彻底剥离,露出了骨感的现实:我们距离真正理解并预测基因扰动的特异性生物学后果,还有很长的路要走。但这并非绝望的终点,恰恰是一个更诚实、也更有希望的起点。
在Systema框架的严苛审视下,看似一片狼藉,但研究人员并没有止步于批判。他们进一步追问:在剥离了系统性变异的幻象后,最优秀的AI模型是否还保留了任何有价值的生物学洞察力?答案是,并非如此。AI的预测能力虽然被大大高估,但并非一无是处。
为了探索这一点,研究人员在Systema框架中引入了一个更直观、更贴近生物学应用的评估指标——“质心准确率”(centroid accuracy)。这个指标不再纠结于基因表达谱的精确数值匹配,而是提出了一个更实际的问题:对于一个给定的基因扰动,模型的预测结果在“基因表达空间”中,是离它自己的真实位置更近,还是离其他不相关扰动的真实位置更近?
这个巧妙的指标,旨在评估模型是否能捕捉到扰动的“粗粒度”(coarse-grained)效应,即便它无法描绘出每一个细节。测试结果带来了一线希望。虽然大多数模型的质心准确率仅仅略高于简单的基线模型,但经过大规模单细胞图谱预训练并进行微调的scGPT模型,展现出了明显的优势。
特别是在Replogle K562这个全基因组规模的数据集上,scGPT模型尤其擅长预测那些参与核心细胞过程、功能上高度相关的基因群组的扰动效应,例如核糖体蛋白编码基因。这表明,虽然精确预测单个基因的微小影响极为困难,但最先进的模型已经开始有能力理解和预测由功能相关的基因群组所介导的、更大尺度上的生物学事件。
为了将这一想法推向极致,研究人员设计了最终的、也是最具挑战性的测试。他们利用Replogle K562数据集中的标注信息,考验模型是否能预测一个复杂的细胞表型——染色体不稳定性(Chromosomal Instability, CIN)。在这场终极考验中,几乎所有模型都失败了。然而,只有那个经过微调的scGPT模型,再次脱颖而出。它的预测结果显著优于偶然,其受试者工作特征曲线下面积(AUC)达到了0.73。虽然这个分数离完美还很远,但它清晰地表明,该模型已经能够从基因表达的细微变化中,部分地“解读”出关于染色体稳定状态的宏观信息。
这项工作,从揭示“皇帝的新衣”开始,最终在看似一片废墟的景象中,为我们指出了真正的曙光所在。追求对基因表达谱的像素级完美预测,可能在当前阶段是一个过于苛刻且容易被系统性变异误导的目标。然而,将AI模型的预测作为一种工具,去理解和推断那些由扰动引发的、更高层次的、粗粒度的生物学功能和细胞表型,是一条充满希望且切实可行的道路。Systema框架的诞生,不仅仅是对现有评估方法的修正,更是对整个研究领域的一次深刻反思,它为我们照亮了通往生命真相的、更坚实的道路。
参考文献
Viñas Torné R, Wiatrak M, Piran Z, Fan S, Jiang L, Teichmann SA, Nitzan M, Brbić M. Systema: a framework for evaluating genetic perturbation response prediction beyond systematic variation. Nat Biotechnol. 2025 Aug 25. doi: 10.1038/s41587-025-02777-8. Epub ahead of print. PMID: 40854979.
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!
来源:生物探索一点号1