摘要:“通用表达转换器”(General Expression Transformer,GET)是一个新型的人工智能模型,由美国哥伦比亚大学与卡内基·梅隆大学的合作团队开发。该模型在基因表达预测领域取得了革命性的突破,能够精准预测各种人体细胞的基因表达情况。以下是对
“通用表达转换器”(General Expression Transformer,GET)是一个新型的人工智能模型,由美国哥伦比亚大学与卡内基·梅隆大学的合作团队开发。该模型在基因表达预测领域取得了革命性的突破,能够精准预测各种人体细胞的基因表达情况。以下是对GET模型的详细介绍:
基因表达是生物体内信息传递的核心环节,涉及DNA转录生成RNA,RNA再指导蛋白质的合成,从而影响细胞的生理与功能。然而,传统的基因表达预测模型大多局限于特定的细胞类型,尤其是癌细胞,存在一定的局限性。GET模型的诞生旨在打破这一壁垒,为生命科学和医学研究提供更为广泛和精准的预测工具。
数据基础:GET模型利用了来自超过1.3万个人体细胞的基因测序与表达数据,这些细胞样本涵盖了213种正常人类胚胎和成体细胞,确保了模型的有效性和广泛适用性。技术原理:GET模型运用了前沿的机器学习技术,尤其是在转录调控机制的理解上。通过对生物分子互动的深入研究,研究人员设计出了一种能够从海量数据中提取“语法规则”的深度学习框架。这种框架类似于人工智能工具如ChatGPT分析语言的方式,能够从此前未接触过的细胞类型中预测出基因表达情况。核心机制:GET模型的整体设计和核心机制包括输入数据、自监督预训练阶段和微调阶段。输入数据为一个“峰值(可及区域)×转录因子(TFs,基序)矩阵”,来源于人类单细胞ATAC-seq(scATAC-seq)数据集,覆盖了超过2百万碱基的基因组区域。在自监督预训练阶段,GET模型学习了转录调控的语法规则。接着,通过使用成对的scATAC-seq和RNA-seq数据进行微调,GET模型学会了将调控语法转换为基因表达模式,即使在未见过的细胞类型中也能进行预测。预测精度与适应性:GET模型展现出了前所未有的预测精度和适应性,甚至可以对未见过的细胞类型进行零样本预测(zero-shot prediction)。这一特性使得GET模型在医学研究中具有广泛的应用潜力。揭示致病基因机制:GET模型能够揭示致病基因的“语言”与“语法”,帮助科学家探寻与疾病发生相关的基因相互作用。例如,在癌症研究中,GET模型能够揭示致癌基因的调控机制,为癌症的精准治疗提供新的视角。指导实验验证:GET模型的预测结果可以为实验验证提供指导。例如,在某些儿童白血病患者中,GET模型预测到一个尚不明功能的变异基因会干扰细胞内两种转录因子的相互作用,后续实验数据也证实了这一结论。探索基因组“暗物质”:人类基因组中,蛋白质编码基因序列仅占很小的比例,达98%的非编码区域像宇宙中的暗物质一样难以认知。GET模型为科学家们开启了探索这些“未知领域”的新机会。随着科技的不断进步,人工智能对生命科学的影响愈发突显。GET模型的出现不仅是AI技术在生物医学领域的典型应用,也为更多相关技术的迭代与发展提供了强大的动力。然而,对于AI在生物医学领域的快速发展,我们也需保持警惕,确保在科学探索的同时履行伦理责任,保护生命的尊严与价值。
综上所述,“通用表达转换器”(GET)模型是一个具有革命性意义的人工智能模型,在基因表达预测领域取得了显著成果。它的出现将为生命科学和医学研究带来更为广泛和精准的预测工具,推动相关领域的快速发展。
来源:十优打板
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!