摘要:「Meet AI4S」系列直播第五期将于 12 月 10 日 19:00 准时开播,HyperAI超神经有幸邀请到了浙江大学知识引擎实验室的博士研究生王泽元,他本次分享的主题是「借助扩散去噪过程助力大模型对蛋白质的优化」。
「Meet AI4S」系列直播第五期将于 12 月 10 日 19:00 准时开播,HyperAI超神经有幸邀请到了浙江大学知识引擎实验室的博士研究生王泽元,他本次分享的主题是「借助扩散去噪过程助力大模型对蛋白质的优化」。
浙江大学陈华钧教授、张强研究员、王泽元博士等人提出的全新去噪蛋白质语言模型 (DePLM),可以将蛋白质语言模型捕捉到的进化信息视为与目标特性相关和无关的混合体,其中无关信息被视为「噪音」并消除,进而预测蛋白质适应性景观,帮助蛋白质优化。
研究表明,DePLM 在预测蛋白质突变效应方面超过了现有方法,并且对新蛋白质具有很强的泛化能力,该成果已经入选顶会 NeurIPS 2024。本次直播,王泽元博士将为大家详解这篇论文的创新思路。
HyperAI超神经还特意为大家准备了超值算力福利,参与直播间抽奖活动即有机会获得 10 小时 NVIDIA RTX A6000,价值 40 元,资源有效期为 1 个月,快来预约直播吧!
分享主题
借助扩散去噪过程助力大模型对蛋白质的优化
内容简介
本课题组提出将大模型与扩散去噪模型相结合的方法,通过少量湿实验数据进行精细微调,提升大模型在蛋白质适应性景观预测任务精准度的同时,保持了模型自身良好的泛化能力。
观众获益
1. 了解蛋白质适应性景观 (fitness landscape) 预测的方法、数据集和指标
2. 了解扩散模型增强的语言模型 (DePLM) 如何用于适应性景观预测
3. 探讨进化信息、湿实验等数据如何结合共同用于 AI 模型的训练
论文回顾
HyperAI超神经此前曾解读了王泽元博士为第一作者的研究论文「DePLM: Denoising Protein Language Models for Property Optimization」。
研究亮点
* DePLM 能够有效过滤与目标特性无关的信息,通过优化 PLM 中包含的进化信息来改善蛋白质优化
* DePLM 不仅在突变效应预测方面优于当前最先进的模型,还展现出对新蛋白质的强大泛化能力
* 本研究设计了去噪扩散框架中基于排序的前向过程,将扩散过程扩展到突变可能性的排序空间,同时将学习目标从最小化数值误差转变为最大化排序相关性,促进数据集无关的学习并确保模型强大的泛化能力
数据集获取
研究选用 ProteinGym 蛋白质突变数据集,排除过长野生型蛋白质数据集后,最终保留了 201 个深度突变筛选 (DMS) 数据集。
数据集直接使用:
模型架构
如下图左侧,DePLM 使用从 PLM 中得出的进化似然 (Evolution Likelihood) 作为输入,并生成针对特定属性的去噪似然 (Denoised Likelihood),用于预测突变的影响;在下图中间和右侧,去噪模块 (Denoising Module) 利用特征编码器 (Feature Encoder) 生成蛋白质的表征,考虑一级和三级结构,这些表征随后通过去噪模块用于过滤似然中的噪声。
DePLM 架构概览
为了实现与数据集无关的学习,保证强大的模型泛化能力,研究人员在特性值的排序空间中进行扩散过程,并将传统的最小化数值误差目标替换为最大化排序相关性。
知识引擎实验室依托浙江大学计算机科学与技术学院、软件学院等,致力于知识图谱、大型语言模型、AI for Science 等领域的学术研究、开源开放、产业创新应用。联合建设有浙江大学蚂蚁集团知识图谱联合研发中心、浙江大学阿里巴巴知识引擎联合实验室等。
团队长期招聘优秀博后、百人、研发工程师等各类专职研究人员,欢迎大家加入~
HyperAI超神经 (hyper.ai) 是中国最⼤的数据科学领域搜索引擎,聚焦 AI for Science 的最新科研成果,实时追踪 Nature、Science 等顶级刊物的学术论文,至今已完成近 200 篇 AI for Science 论文的解读。
此外,我们还运营了国内唯一 AI for Science 开源项目 awesome-ai4s。
* 项目地址:
为了进一步推进 AI4S 的普适化,将学术机构的科研成果进一步降低传播壁垒,分享给更广泛的行业学者、科技爱好者及产业单位,HyperAI超神经策划了「Meet AI4S」视频栏目,邀请深耕 AI for Science 领域的科研人员或相关单位,以视频的形式分享研究成果、方法思路,共同探讨 AI for Science 在科研进展及推进落地过程中面临的机遇和挑战,促进 AI for Science 的科学普及和传播。
到目前为止,我们已经成功举办了 4 期 Meet AI4S 直播,覆盖地理信息科学、生命科学、蛋白质工程领域。
来源:芳芳论科学