导读我是来自粤港澳大湾区数字经济研究院(IDEA)的李昱。我想和大家探讨一个激动人心且相对较新的领域——科学智能,即 AI for Science。科学研究的范式在历史上经历了数次演进。图灵奖得主吉姆·格雷(Jim Gray)将其总结为四个阶段:从几千年前的实验归纳(第一范式),到几百年前基于理论模型的模型推演(第二范式),再到近几十年的仿真模拟(第三范式)。而今天,我们正处在一个由数据驱动的时代,迎来了科学研究的第四范式——数据密集型科学发现。摘要:导读我是来自粤港澳大湾区数字经济研究院(IDEA)的李昱。我想和大家探讨一个激动人心且相对较新的领域——科学智能,即 AI for Science。科学研究的范式在历史上经历了数次演进。图灵奖得主吉姆·格雷(Jim Gray)将其总结为四个阶段:从几千年前的实
AI for Science 的核心,正是利用人工智能技术,特别是其强大的“数据+模型”范式,与传统科学研究方法深度交叉融合,从而革新科研的全流程。近年来,我们见证了 AI 在各个科学领域的惊人突破:DeepMind 登顶国际数学奥林匹克竞赛,Evo 2 模型实现了对所有物种 DNA、RNA 和蛋白质功能的精准预测,微软的 MatterGen 能根据设定的性质直接生成新材料。这些成果无不预示着,一个由 AI 赋能的科学发现新时代已经到来。
主要内容包括以下几个部分:
1. 化学与制药行业的困境与 AI 带来的曙光
2. IDEA 化学大模型:模型能力的构建
3.IDEA 化学大模型:数据能力的基石
4. 总结与展望
分享嘉宾|李昱博士 IDEA研究院 主任研究员、AI4Science负责人
编辑整理|半糖
内容校对|郭慧敏
出品社区|DataFun
01
化学与制药行业的困境与 AI 带来的曙光
在众多科学领域中,我们团队目前重点关注的是化学与生物医药,尤其是新药研发。这个行业是典型的知识密集型和高风险行业,其传统的研发范式主要依赖于科学家的专家直觉和大量的试错实验。
这一传统模式存在三大痛点:
周期长:一款新药从研发到上市,平均耗时超过 10 年。成本高:平均成本超过 10 亿美元,有时甚至更高。成功率低:令人沮丧的是,即便投入如此巨大的时间和金钱,仍有超过 90% 的候选药物在临床试验阶段失败,这被称为新药研发的“死亡之谷”。从国内需求来看,我们有 32% 的靶点药物依赖进口,54% 的国产药稳定性有待提高,创新药的研发和国产替代迫在眉睫。
面对这样的困境,AI for Science 为我们提供了一个历史性的机遇。通过数据与模型双轮驱动的模式,AI 能够提供精准的预测,大幅度加速传统的人工驱动的科学发现流程,显著缩短科研周期。正如 AlphaFold 将蛋白质结构解析的时间从数年缩短到分钟级别,我们相信,AI 有望成为我国在医药、材料、化工等关键领域突破“卡脖子”困境、实现“弯道超车”的强大引擎。
为了将 AI 技术应用于复杂的化学和药物研发流程,我们构建了一个分层化的技术框架,涵盖了从底层数据积累、基础模型构建到上层应用能力的全链路。
整个药物研发(临床前)可以简化为**设计(Design)、合成(Make)、测试(Test)、分析(Analyze)**的 DMTA 循环。每个环节都耗时耗力,且环环相扣,任何一步的延误或失败都会导致巨大的沉没成本。我们的目标,就是用 AI 模型赋能这些关键环节。
1. 小分子药物:精准预测蛋白质-配体亲和力
在小分子药物设计中,一个核心任务是预测候选药物分子与靶点蛋白质的结合亲和力。这就像是设计一把能精准打开特定锁(靶点)的钥匙(药物)。
我们开发了 LigUnity 模型,它专注于提升蛋白质-配体结合亲和力预测的精确性和效率。该模型通过先进的对比学习算法进行预训练,能够学习到蛋白质口袋(Pocket)和配体(Ligand)在嵌入空间中的深刻关联。
这项工作已经被《Cell》子刊接受,并获得了高度认可。
抗体药物是另一大类重要的生物药。我们针对其特性开发了专门的模型。
随着通用大语言模型(LLM)的兴起,我们也在积极探索其在化学领域的应用。
“模型” 和 “数据” 是 AI 的双翼,缺一不可。在 AI for Science 领域,高质量、大规模的专业数据是训练出强大模型的基础。然而,化学领域存在着严重的数据孤岛问题。
全球医药专业数据库的市场规模高达数千亿美元。然而,即便是像 SciFinder 和 GOSTAR 这样业界领先的商业数据库,其收录的结构化实验数据也仅在数百万到数千万的量级。与此同时,还有海量的、价值连城的数据沉睡在数以亿计的科学文献和专利的非结构化文本、表格和图片中。
人工提取这些数据不仅效率低下,而且成本高昂。一份几百上千页的药物专利,一个专业的科研人员可能需要数周时间才能完成数字化整理。这些专利文档的特点是:
内容复杂:包含完整的化学结构图、化学基团、合成路线、活性数据表格等多种模态信息。为了高效、精准地从这些复杂的文档中挖掘数据,我们开发了一套“大模型+小模型”结合的自动化解决方案。
小模型各司其职:我们自研了多个针对特定任务的 “小模型”,包括:布局识别与表格解析模型:能够精准解析各类复杂排版的表格,准确率达到 96%。光学化学结构识别(OCSR)模型:这是我们的核心技术之一。通过在数百万级别的专利数据上进行训练,我们的 OCSR 模型在分子结构识别的准确率上从开源模型的 80% 提升到了 95% 以上,在公开可测评模型中排名第一。二元组关系模型:能够准确地将识别出的化学结构与其在文中的编号(ID)进行关联,准确率达到 94%。大模型处理泛化与推理:利用 GPT-4、Gemini 等先进的大语言模型,解决多语言理解和复杂语义推理的问题。通过这套系统,我们将解析一份上千页专利的时间从数周缩短到了 1 小时以内,实现了数据挖掘能力的指数级提升。
基于强大的数据和模型能力,我们正在开发更智能的应用助手。
专利分析助手:结合搜索与推理能力,帮助科研人员快速分析专利布局,评估项目的市场潜力和技术可行性。回顾我们的实践,AI for Science 的核心在于用 AI 大幅度加速传统基于人工驱动的科学发现流程。我们通过构建数据和模型这两个强大的引擎,并让它们相互驱动、协同进化,为复杂的科学问题提供了前所未有的解决方案。
我们正处在科学研究第四范式的浪潮之巅。展望未来,我们还有更远大的目标:
打通全流程:目前我们的模型更多是赋能研发流程中的单个环节。我们希望将这些环节串联起来,形成一个从文献理解、靶点发现、分子设计、性质预测到合成路径规划的端到端 AI 解决方案,这可能需要一个多智能体(Multi-Agent)的协作系统。实现干湿实验闭环:将我们的 AI 预测(干实验)与自动化实验平台(湿实验)相结合,形成一个“设计-实验-验证-再设计”的快速迭代闭环,让 AI 真正成为一个能够自主进行科学探索的“虚拟科学家”。拓展领域:将我们在药物研发领域积累的经验和能力,拓展到新材料、新能源等更广泛的化学相关领域。我们的终极愿景,是让 AI 不仅仅是提升效率的辅助工具,而是能够真正打破人类科学家的认知局限,做出颠覆性的科学发现。或许在不远的将来,AI 能够发现人类数十年未能发现的新化学反应,为我们带来诺贝尔奖级别的突破。
这条路充满挑战,需要我们秉持长期主义,不断探索。欢迎各位有志之士与我们交流合作,共同推动这场由 AI 引领的科学革命。
以上就是本次分享的内容,谢谢大家。
来源:DataFunTalk