测测你的多模态大模型是不是个合格的「绝命毒师」?

B站影视 韩国电影 2025-06-23 14:33 1

摘要:澳门科技大学、上海交通大学、中国科学院自动化研究所与上海人工智能实验室联合发布全球首个面向通用多模态大模型(MLLMs)的分子毒性修复基准任务 ToxiMol,并配套提出多维评估体系 ToxiEval,对近 30 款主流 MLLM 开展系统测评,首次全面验证其

编辑 | ScienceAI

澳门科技大学、上海交通大学、中国科学院自动化研究所与上海人工智能实验室联合发布全球首个面向通用多模态大模型(MLLMs)的分子毒性修复基准任务 ToxiMol,并配套提出多维评估体系 ToxiEval,对近 30 款主流 MLLM 开展系统测评,首次全面验证其在毒性规避与结构优化任务中的能力边界。

通用多模态大模型,能修复「有毒分子」吗?

在新药研发早期,约九成候选分子因 ADMET(吸收、分布、代谢、排泄与毒性)属性不佳而宣告失败,毒性问题则是导致临床前阶段淘汰的主要元凶。传统的毒性规避手段,如结构修饰、片段替换或骨架优化,依赖资深专家经验和反复试验,既复杂又高成本,难以规模化推广。

近年来,通用 MLLMs 展现出强大的跨模态感知与推理能力,也开始被探索性地应用于科学领域,特别是化学与生命科学等高度结构化的任务场景。已有研究尝试将通用 MLLM 应用于分子的语义定位、毒性预测和结构编辑等方向,并在多个案例中取得初步成效。

但一个关键问题仍未解答:通用 MLLM 是否具备「识别毒性机制 + 优化分子结构」的能力?是否可以完成真正意义上的「毒性修复」任务,而非仅做毒性预测或单目标属性优化?

然而,当前尚无系统性的评估基准与方法框架,使得模型在应对该类任务时缺乏统一标准与优化目标。

全球首个毒性修复基准:ToxiMol 任务发布

针对上述挑战,研究团队提出 ToxiMol,这是首个专为评估通用 MLLMs 在分子毒性修复能力而设计的基准任务。

ToxiMol 覆盖了 11 个毒性修复主任务,涵盖包括 LD50、DILI、AMES、hERG 等在内的典型毒性机制,共构建 560 个真实有毒分子样本,具备高结构复杂度与机制异质性。

每个任务样本由 3 部分组成:

不同毒性机制差异显著,通用提示模板难以覆盖复杂场景,因此团队构建了机制感知的提示标注 pipeline,以提升模型对修复目标的理解与响应能力。MLLM 需在「识别毒性机制—理解修复目标—编辑分子结构」三重协同下,生成结构合理、毒性显著降低的新分子。

毒性修复评估链:ToxiEval 上线

为了实现对修复结果的自动化、多维度评估,研究团队设计了配套的评估框架——ToxiEval。

ToxiEval 综合考虑以下 5 个关键指标:

安全评分(Safety Score):基于 TxGemma 模型预测毒性端点风险;成药性评分(QED):衡量生成分子是否具备典型「药物样」理化特征;合成可行性(SAS):评估分子的合成复杂度与实验可行性;Lipinski五项规则(RO5):判断分子是否符合经典口服药物的理化属性标准;结构相似度(SS):评估生成分子与原始分子在骨架结构上的相似性;

评估机制采取严格的「全约束通过」策略:仅当候选分子同时满足所有指标阈值,才判定为「毒性修复成功」。

近 30 个多模态大模型全面评估,挑战通用泛化能力

为了验证通用 MLLMs 在毒性修复任务中的能力表现,研究团队对近 30 个通用 MLLMs 进行了系统评测,涵盖GPT-4o、Claude-3、Gemini、DeepSeekVL、QwenVL、InternVL 等主流闭源与开源模型。

实验结果表明:

当前通用 MLLMs 在整体毒性修复任务中的成功率普遍偏低,展现出该任务对于模型泛化能力、结构理解能力和机制建模能力的高度挑战性;推理增强类模型(如 GPT-o1/o3/o4-min)与标准模型(如 GPT-4.1、GPT-4o)在表现上差异不大,表明现阶段模型的推理能力尚未充分转化为有效的分子毒性修复策略;开源模型的性能高度依赖参数规模,小模型(如 7B/8B)在大多数任务中修复成功率显著偏低;在任务层面,模型在毒性表型判别任务(如 Tox21、ToxCast)中表现相对较好,但在机制复杂度更高的任务中成功率急剧下降,典型如:急性毒性预测(LD50):需对分子结构与毒性强度之间的连续映射关系进行建模,对结构感知与回归预测能力要求极高;肝毒性预测(DILI):关联代谢路径与系统毒性机制,当前模型尚难形成有效推理路径;皮肤致敏性毒性(Skin Reaction):为全任务中成功率最低者,揭示出模型在识别与重建诱导性毒性机制方面的能力瓶颈;

此外,团队还从结构合法性分析、评估维度组合、修复候选数量、失败归因等角度开展了细致的消融实验,为模型优化与任务推进提供了丰富洞见。

研究发现,通用 MLLM 在毒性修复任务中「挂科」的关键原因,并非生成结构不合法,而是最核心的目标未达成——毒性依然未被有效规避。

在 hERG、DILI、Skin Reaction 等任务中,超过 40% 的失败样本可归为「毒性瓶颈」(Type‑T):即候选分子虽在成药性、合成可行性等属性上全部达标,却未能通过安全评分。表明当前模型在结构生成上虽具备一定合理性,但在识别与规避毒性机制方面仍显乏力。

与此同时,部分模型虽在毒性规避方面取得一定成效,但其修复策略往往以牺牲可药性、合成可行性等关键属性为代价。这类失败样本被归为「可药性瓶颈」(Type‑O),反映出模型在多属性平衡能力上的明显不足。

随着 AI4Science 的快速推进,从蛋白结构预测、药物筛选到材料设计,越来越多的大模型正在向科学领域的困难问题发起挑战。而 ToxiMol 的出现,无疑为「结构级」的分子智能开辟了新的试验场——在「打破坏分子」的路上,MLLM 准备好了吗?

Arxiv论文地址:

数据集:

来源:雷霆战神王

相关推荐