摘要:21世纪初,人类解码了基因组。人类基因组为深刻地理解人类基因提供了巨大的帮助,并且伴随基因组的解码,生物科技迎来许多喜人的突破。但是,人们对基因如何与其他产物相互作用仍然缺乏理解。科学家尝试使用许多工具来理解这个问题,其中数学扮演着十分重要的作用,因为生物科技
21世纪初,人类解码了基因组。人类基因组为深刻地理解人类基因提供了巨大的帮助,并且伴随基因组的解码,生物科技迎来许多喜人的突破。但是,人们对基因如何与其他产物相互作用仍然缺乏理解。科学家尝试使用许多工具来理解这个问题,其中数学扮演着十分重要的作用,因为生物科技会产生大量数据,处理它们的方式之一就是数学。除了在量化方法中发挥作用,更重要的是数学模型可以建模基因遗传过程,从而对事物运作方式提供定性的见解。在伦敦大学学院,科学家们开发了一个非常简洁的模型帮助理解与癌症生物学相关的分子过程。
DNA能做什么?什么导致了健康细胞癌变?
DNA对细胞功能至关重要,因为它是蛋白质的模版,而蛋白质是细胞中活跃的分子制剂(molecular agents)。由DNA中编码的信息得到蛋白并非简单直接的事,其中存在一种中间分子:信使RNA(mRNA)。信使RNA由一个叫做RNA聚合酶的分子装置(molecular apparatus )产生。RNA聚合酶沿着DNA读取信息,并在读取过程中产生mRNA分子。这是产生蛋白质的第一步,被称为转录,mRNA 分子称为转录物(transcript)。一段基因是完整DNA的一部分,用于编码特定蛋白质。
第二个步骤叫做翻译。此时mRNA被另一个细胞器核糖体(ribosome)读入,并产生氨基酸链,氨基酸链经过折叠后变成具有功能性的活性蛋白质。单个mRNA 分子可以被这样使用很多次,产生不只一份蛋白质。
转录因子(蓝色)结合在DNA(红色)上
只有一部分DNA能够编码蛋白质,在某些生物体中,这个比例其实是相当小的。例如,在人类的DNA中,只有2%的片段编码蛋白质。不止如此,在单个细胞中,并非所有编码了DNA的片段都会被使用。这是因为多细胞生物中的单个细胞通常只执行专门的功能,例如,肝细胞和皮肤细胞,因此它们不需要完整的DNA编码库来实现功能。同样,同一时间并非所有蛋白质都被制造,因为其中一些蛋白仅在特定生命活动中才需要。
如何表达DNA?那么,细胞中特定基因是如何被表达的呢?事实上,有许多因素会影响基因表达,但这个过程由一种叫做转录因子(transcription factor)的特殊分子主导。这种分子附着在DNA编码序列区域,并召集转录机器(transcription machinery)来表达相邻的基因。转录因子也可以充当抑制因子(repressors),即减少某些基因的表达,比如与其他转录因子结合,或与DNA的其他非编码序列结合。
如果这听起来还不够复杂,转录因子本身是蛋白质,故而它们也是其他转录因子作用的产物,或者能够产生其他转录因子。这些描述转录因子彼此影响的链条可以指向自身,形成具有反馈功能的回路。
总之,分子水平上的生命现象是相当复杂的,了解复杂的基因和蛋白质网络如何连接和发挥作用是当代生物学的主要挑战之一。
DNA修复针对DNA损伤的反馈网络是一个特别有趣的系统,它与癌症的形成有关。当细胞的DNA受损时,修复系统就会启动。但修复系统无法保证工作结果的正确,它们可能会出错,而这些错误将导致威胁整个生物体的癌变。为了避免这种危险,让生物体健康存活下去,受到潜在危险突变影响的细胞可以选择自杀,这称为细胞凋亡(apoptosis)。
一个与细胞凋亡密切相关的转录因子是。科学研究发现,大约一半的人类癌症中都存在突变。因此,如果我们能够确切了解有助于表达哪些基因,就将有助于寻找对抗癌症的办法。
寻找目标基因识别的靶基因需要一些数学检测工具。特定基因在特定细胞中的表达程度可以通过观察细胞中的mRNA 浓度来测量,mRNA越多,说明基因表达越多。如果与基因表达有关,那么高浓度的mRNA应该伴随着的高活性,而低浓度的mRNA则伴随着低活性。
我们可以使用微分方程来精确地描述这种直觉(如果你以前没有遇到过微分方程,请看下方的例子):
微分方程:浴缸问题亚历克发现,他的浴缸会以每分钟十升的速度注入水,但每小时还会漏水六升。当浴缸里水从零开始逐渐注满的时候,亚历克可以洗澡了,此时总共过去了20分钟。那么,亚历克能在他踏进浴缸的一刻就知道浴缸里就有多少水吗?本质上,这个问题需要用到微分方程。已知变化率(净通量)、初始条件(浴缸一开始是空的),你需要推断出未来某个时间点的系统状态(20 分钟后有多少升?)。完整描述它的微分方程如下:
方程左侧描述了浴缸里的水量 b 随时间的变化,右侧的常数项( 和 )分别表示浴缸注水和漏水的速率。解决问题意味着找到函数 ,其导数满足上述方程。在这种情况下,解是 。
如果亚历克是个聪明人的话,他就会知道浴缸里有 升的水,而且,如果选择冲澡并修好浴缸,他将节省大量水费。
现在让我们的思维离开浴缸,回到mRNA的研究,科学家写出了这样一个微分方程:
这里,函数 描述 时刻细胞内mRNA的浓度。等式的左边是 对时间的导数:它描述了mRNA的浓度随时间变化的快慢。根据这个等式,mRNA浓度变化率是三个项之和。第一项 对应于恒定的(或基础的)mRNA产生速率(如果用浴缸比喻,那么这一项对应一个不受人控制的打开的水龙头)。每个基因都有自己的恒定产生常数 。第二项更有趣,因为它会随时间而变化,是 和 两个东西的乘积。首先 是描述转录因子活性的量,它是单独描述的一个函数,与我们正在研究的特定基因无关。第二个常数S则和我们关注的基因相关,它描述在多大程度上参与了该基因mRNA的生成。对于某些基因,该常数将接近于零,表明转录因子对该特定基因的产生几乎没有影响。我们当然对那些对转录因子活性变化敏感的基因感兴趣,也就是那些常数 明显大于零的基因。第三个也是最后一个项 描述了mRNA的损失(或降解),因此带有负号。这对应于“漏网”的 mRNA 分子。(实际上,漏网并不是一个很合适的词:mRNA 分子可能在有机会被翻译成蛋白质之前就碎成片,而不是从细胞中真正漏出来。但无论如何,它们都会消失。)mRNA 的损失率不是恒定的,而是与当时存在的mRNA数量 成正比(与浴缸类比相反)。这是因为细胞中存在的分子越多,细胞就越倾向于降解它。这就是常数 乘以 的原因。
找到p53表达的基因是一个逆向的浴缸问题
现在,这个模型为我们提供了一种找出是否参与了特定基因表达的方法。使用微阵列(microarrays),我们可以测量 mRNA 随时间的变化 ,从而也能得到变化率 。然后,我们可以尝试找到使方程成立的常数 、 和 。于是,单个基因表达对 的依赖程度就由该基因对转录因子活性的敏感程度反映出来,也就是模型中的参数 。要成为值得考虑的潜在目标, 必须非常大,并且对应的参数模型可以足够好地拟合数据。
(请注意,这种情况与我们的浴缸示例不同。对于浴缸,我们知道组成方程的所有常数,然后得到了描述系统 时刻状态的函数 。在mRNA问题中,我们知道系统的状态 ,想要知道组成方程的常数。从某种意义上说,这是一个逆问题,反向的尝试通常被称为逆向工程。)
缺失的线索到目前为止,一切看起来似乎是完美的,但实际上,我们仍然缺少了关键信息——函数 描述的转录因子谱。如果试图从手头的数据中同时推断出 以及 、 和 ,我们需要的数据量将远超建立原问题时已经拥有的数据量,这相当于在数学上“创造永动机”。但值得庆幸的是,作为一种重要的转录因子,在文献中有相当多的记载,它的一些靶基因已经为人所知。利用已有信息将一些已知的靶基因与模型相匹配,科学家能够推断出的活性谱 。然后使用该活性谱,寻找那些表达谱与模型吻合,并且具有高敏感常数 的基因,它们就是的潜在靶标。在一篇研究中,基于该方法的预测得到了独立实验的证实。实验证明了,不但被预测的基因是的靶标,其中有相当一部分是以前未被标记为靶标的基因。另外,研究者提出,了解单个转录因子的目标mRNA只是研究相关研究的冰山一角。例如,案例中的只是 DNA 损伤后被激活的几种转录因子之一。通过重写基因表达模型并将其与转录率(transcript turnover rates)相结合,还能够分析出细胞压力反馈系统的主要转录活动过程。总之,要完全理解DNA的转录系统(和其他系统),还有相当多工作要做,但毫无疑问,数学将在这个过程中发挥核心作用。
jian
间
今天我们将送出由湖南科学技术出版社提供的《端粒 : 年轻、健康、长寿的新科学》。
【互动问题:除了细胞凋亡,你还知道哪些研究生物学的数学模型?这些模型如何建模和解释生命现象?】
请大家严格按照 互动:问题答案 的格式在评论区留言参与互动,格式不符合要求者无效。
截止到本周四中午12:00,参与互动的留言中点赞数排名第二、三、五的朋友将获得我们送出的图书一套(点赞数相同的留言记为并列,下一名次序加一,如并列第二之后的读者记为第三名,以此类推)。
为了保证更多的朋友能够参与获奖,过往四期内获过奖的朋友不能再获得奖品,名次会依次顺延
*本活动仅限于微信平台
编辑:7号机
翻译内容仅代表作者观点
来源:中科院物理所