AI医疗、合成生物巨头争先布局,开采未来时代的“新石油”

B站影视 内地电影 2025-10-29 11:26 1

摘要:从通用AI领域的样本来看,Scale AI、Surge AI、Mercor等新锐,已凭借精细化标注和专家资源,相继拿下OpenAI、微软、谷歌、Meta等关键客户晋升为大模型“卖水人”。

当下的AI技术热潮中,数据是最炙手可热的“燃料”。

从通用AI领域的样本来看,Scale AI、Surge AI、Mercor等新锐,已凭借精细化标注和专家资源,相继拿下OpenAI、微软、谷歌、Meta等关键客户晋升为大模型“卖水人”。

然而在生物制造领域中,数据并非一座挖掘后就能投入制造的金矿,现存可供工艺开发和制造的成熟数据极为稀少,无法适应传统的人工智能/机器学习 (AI/ML)。

在这里,数据更像是新时代的石油。与石油一样,数据本质上是肮脏的,需要投入时间和金钱来提取价值,这就是人工智能工具作为数据精炼者发挥作用的地方。

在全球生物工艺的顶级盛会之一,2025波士顿生物工艺峰会(2025 Annual Bioprocessing Summit)上,来自AI制药、跨国药企及相关企业的嘉宾就围绕着“ Digital Transformation and AI in Bioprocess”展开了讨论。

高质量数据 成为行业刚需

必须关注AI背后的数据质量,这一点在会议上被反复提及。

国际知名律所Foley Hoag合伙人Colin Zick指出,在生物制造行业中,人们认为AI与其他数据工具不同,这种心态导致许多人觉得过去的通常规则不适用于AI,这是极其危险的。

赛诺菲全球iCMC数字化转型项目负责人Cenk 支持这一说法,一旦人们掌握了数据,就直接投入机器学习算法等AI工具中,而不考虑基本原理,比如基本的统计学知识,以及对数据和我们正在试图解决的问题的理解。

同时他反驳了另一个流行的神话,即人工智能几乎适用于所有情况 —— “有时AI/ML方法不适合一项任务,简单的普通流程反而会完成得更好。”

AI生物制造初创企业Biocurie的首席执行官 Irene Rombel提出了一个行业关注的话题:使用大型语言模型 (LLM) 和合成数据来生成缺失数据,也就是俗称的“垃圾进,垃圾出”

AI制药企业Cresset首席战略官 Mark Mackey 等科学家一直在对人工智能的这种潜在用途敲响警钟,理由是整个行业对生物学的了解还不够,无法验证人工智能是否拥有做到这一点所需的所有数据。

人工智能是批判性思维的工具,而不是批判性思维的替代品。

Rombel 建议将心态从收集尽可能多的数据转变为获取正确的数据,尽管这样可能会提高成本,因为专业知识和强大的统计分析同样重要。

同时Undey还指出:认为机器学习/深度学习模型需要数百万个数据点是一个常见的误区。

AI生物制造模型的真正决定因素还是数据的质量,目前他们已经开发出了不少计算方法,甚至能够处理数据相当有限的数据集。

哪些企业深耕于此?


使用AI不是目标;在有意义的地方使用它来解决正确的问题更为关键。

为了实现这一目标,生物制造行业需要整合生物基因编辑、代谢通路设计、工业发酵优化等全流程数据,才能为生物医药等各领域提供高质量数据集支持。

目前AI的表现情况仍直接取决于人类给予它学习的数据,现阶段对AI应用来说,最重要的还是由实验人员产生足够的数据。

在产业界,木头姐重仓的TempusAI,就是一家深耕AI医疗数据的公司,核心投资逻辑在于,其拥有目前世界上最大、最全面的癌症患者分子数据库,包含250PB多模态数据。

合成生物龙头Ginkgo Bioworks也有一项名为Ginkgo Datapoints的数据服务,提出了LDaas(Lab Data as a Service,实验数据即服务)的概念,并与Google Cloud合作开发生物工程AI模型。

AI医疗领域的Owkin则围绕药企和医院构建了一个联邦研究生态系统,依托7000例患者数据打造了目前肿瘤学领域规模最大的空间组学数据库MOSAIC。

来源:智药局

相关推荐