摘要:过去六十年,全球实验室里的生物学家,用尽毕生精力,拼出了15万个蛋白质结构。一个接一个,一年几个,几十年几万个,极慢。
过去六十年,全球实验室里的生物学家,用尽毕生精力,拼出了15万个蛋白质结构。一个接一个,一年几个,几十年几万个,极慢。
然后,一个AI团队用两年时间,搞定了两亿。这事很难,难到连顶尖科学家都拿它比作生物学的“费马大定理”。难在哪?难在我们根本不知道,任意一段氨基酸链会怎么在三维空间里折叠。
每一个蛋白质,都是一串氨基酸。氨基酸很简单,二十种,每个都带个侧链,前端是氨基,后端是羧基。氨基和羧基相连,形成肽键,连成链。
问题是,这条链会自己“卷”起来。
不是随便卷。氢键、范德华力、电荷吸引、疏水作用、溶剂干扰,交错拉扯,最终稳定成一种只有一种的三维形状。这个形状决定蛋白质的功能。
比如,血红蛋白一定要有氧结合位点,肌肉蛋白要变形收缩,这些都靠它“卷”得对。
但它怎么卷,没人知道。
理论上,我们可以一个一个计算。麻烦是,即使只有35个氨基酸的短链,也有10的几十次方种构型。你让一台纳秒级超级计算机去算,算到宇宙冷却都不一定收敛。
所以只能实验。
最经典的是X射线晶体学。把蛋白质做成晶体,打X光,收集衍射图谱,逆推结构。
第一个成功的是1950年代的英国生化学家约翰·肯德鲁。他从马心脏提取肌红蛋白,失败。转向鲸鱼,从秘鲁进口一大块鲸肉,终于结晶成功。干了12年。
结果结构像一团扭曲的金属管子,被戏称“本世纪最大粪团”。但诺贝尔奖也跟着来了。
接下来几十年,靠这种方法,全球科研界逐步解析出10万个蛋白质,靠的是真金白银和人命堆出来的。一个博士,可能几年只为一个蛋白拼命。还不一定搞出来。
于是问题来了——能不能反过来?已知序列,直接推结构?
这被称为“蛋白质折叠问题”,被列入21世纪最重要的科学挑战之一。
1994年,马里兰大学教授John Moult发起了CASP比赛:不给结构,只给氨基酸序列,让你们来猜。比赛两年一次,全世界的模型都去蒙,谁最接近实际结果,谁赢。满分100,超过90即视为“解出”。
前几届没人过40,直到David Baker出现。他是蛋白质结构预测领域的先行者,用Rosetta程序建模。问题是,算力不够。他想了个办法,把程序开源做成分布式计算项目——Rosetta@home,谁电脑闲着就一起帮忙跑。
跑着跑着,一堆人看着屏保觉得自己也能比程序做得好。于是又做成游戏《FoldIt》,让玩家拉着氨基酸链折来折去。还真猜对了一个HIV关键蛋白。还真被X射线验证了结构是对的。玩家居然上了论文作者名单。
这个小插曲,埋下了后面的伏笔。
因为,有个叫Demis Hassabis的人,也玩了这个游戏。他是围棋AI AlphaGo的主脑。打败李世石后,他把目标转向科学,成立了DeepMind。
接下来发生的事,生物界震动、AI界震惊。
2018年,AlphaFold 1横空出世。模型基于深度神经网络,输入蛋白质序列和物种之间的同源序列比对表(进化表),输出一个二维矩阵,叫“pair representation”。
这个矩阵标注出任意两个氨基酸之间的空间距离、旋转关系。再用这个距离矩阵,折成三维结构。问题是,还是不够准。CASP13得分只有70,没到“解出”标准。
Hassabis拉来牛人John Jumper,干脆重写架构。重点是Evoformer——一种双塔Transformer结构,一边处理进化信息,一边处理几何信息。
两边不断交互。你发现这两个氨基酸共变,我告诉你它们物理上不可能靠近;你测出三角不等式被破坏,我告诉你共变关系可能是假的。
交换48轮,再喂给结构模块。这个模块的任务,就是在三维空间里,把每个氨基酸单独放进合适的位置,然后让它们自己成链。不是强行拉链,是自然收敛。
这个过程反复3轮。
最终,AlphaFold 2出现,参加2020年CASP14,横扫所有模型,几乎对所有蛋白质都“猜对了”。
得分:92。
史无前例。
DeepMind随后一口气公布了两亿条蛋白质结构,几乎覆盖自然界已知全部。只需要序列,它就能还你结构。精度高到可以当实验结果用了。全球生物实验室瞬间集体加速三十年。
而AlphaFold 2用到的关键算法之一,是Transformer架构中演化出的“注意力机制”,也就是ChatGPT用的那套东西。区别是,GPT处理的是单词,AlphaFold处理的是氨基酸。
注意力机制能处理顺序关系、上下文依赖、共现概率,在语言中能猜词,在蛋白中能猜共变氨基酸的空间关系。这是跨领域共通的底层机制。
但AlphaFold只能预测自然界已有的蛋白。
David Baker没闲着。他另起炉灶,不预测,而是生成。用扩散模型“RF Diffusion”,干脆设计全新蛋白。比如要设计能中和蛇毒的抗体,以前得用蛇毒打动物,取抗体提纯,过程漫长,还会引发过敏。
现在可以直接人工设计人类兼容的抗毒蛋白,工业量产,几天出货。这套东西也能做疫苗、做抗癌、做碳固定、做塑料降解酶。
更夸张的是,DeepMind用类似技术搞晶体结构预测,项目叫GNoME,一口气挖出了220万个晶体材料,其中40万是稳定材料,有望用于电池、半导体、甚至超导体。
人类科学像被推了一把,从模糊地走、突然能跑,再可能直接飞。
AlphaFold没靠新数据,它靠的是更好的网络结构、更深的表示能力、更广的交互机制。也就是说,人类靠深度理解和结构创新,终于跨过了原来看不到尽头的瓶颈。
一旦AI在某个点上实现十万倍提速,所有旧流程都会被重构。
来源:老胡科学