1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿

B站影视 港台电影 2025-09-10 16:49 1

摘要:上海AI Lab主导,25家研究机构共同参入,几十位研究人员首次系统梳理 270+ 训练集、190+ 评测集,提出“科学数据分层框架”与“智能体闭环科研”新范式。

快手开源多模态Keye-VL-1.5-8B,本地视觉Agent有救了

从Agent到FlowAgent再到Multi-Agent,落地实践细节都在这儿

DeepSeek R1 + Agent 的下半场

通用大语言模型(LLM)在

科学场景科学大语言模型(Sci-LLMs)

“水土不服”——数据异构、跨尺度、强不确定性。

上海AI Lab主导,25家研究机构共同参入,几十位研究人员首次系统梳理 270+ 训练集、190+ 评测集,提出“科学数据分层框架”与“智能体闭环科研”新范式。

按六大学科分类的著名科学大语言模型(Sci-LLMs)时间线概览,涵盖 2019 年至 2025 年初。

科学数据统一分类法

理论层薛定谔方程、周期表符号化推理,需保证数学一致性方法层实验协议、代码脚本步骤可执行、可复现仿真层分子动力学轨迹跨尺度时序建模洞察层诺奖级假设需跨领域类比与创造性

Fig-3 六大学科数据模态词云:文本、符号、图像、时间序列、多组学、结构化表格

表 II 给出 9 种数据源、8 种数据类型的精确定义,可直接拿来写数据管理计划。

模型:演进四部曲

Fig-2 四代范式:Transfer Learning → Scaling → Instruction → Agentic

阶段代表模型关键突破

Fig-19 预训练数据模态分布:学术文本 46% vs 实验原始信号

物理:90% 为理想仿真(Illustris、Boltshoi),真实 LIGO 波形不足 1 TB。化学:SMILES 字符串高达 2.3 B,但 3D 坐标+光谱配对 地球科学:MODIS、ERA5 影像多,却缺少“像素级语义标注”。Instruction-Tuning:从问答对→带 CoT 的推理链(Nemotron-Science 2.7 M)。多模态 VQA:医学影像报告生成、遥感变化检测,GPT-4V 自动标注占比 > 80%。

表 IV 汇总 150+ 数据集大小、来源、自动标注工具,一键筛选可用资源。

6. 评估:从“答题”到“开实验室”

Fig-23 三大基准难度对比:MMLU-Pro 80%↑ vs HLE 5%↓

新基准任务形式通过率核心难点ScienceAgentBench102 真实论文复现33%需调用 10+ 工具、写代码、调参数HLE (Humanity’s Last Exam)诺奖级问答2–10%谷歌-proof,需多步推理+计算MultiAgentBench多智能体协作42%角色分工、冲突仲裁、共享记忆

7. 数据“暗面”:三大系统性缺陷

Fig-27 数据生产-审核流水线:缺乏可追溯、实时更新、AI-Ready 标准

Fig-28 三阶段演化:数据基础设施→科学能力涌现→自主发现闭环

https://arxiv.org/pdf/2508.21148v1A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

来源:走进科技生活

相关推荐