摘要:上海AI Lab主导,25家研究机构共同参入,几十位研究人员首次系统梳理 270+ 训练集、190+ 评测集,提出“科学数据分层框架”与“智能体闭环科研”新范式。
快手开源多模态Keye-VL-1.5-8B,本地视觉Agent有救了
从Agent到FlowAgent再到Multi-Agent,落地实践细节都在这儿
DeepSeek R1 + Agent 的下半场
通用大语言模型(LLM)在
科学场景科学大语言模型(Sci-LLMs)
“水土不服”——数据异构、跨尺度、强不确定性。
上海AI Lab主导,25家研究机构共同参入,几十位研究人员首次系统梳理 270+ 训练集、190+ 评测集,提出“科学数据分层框架”与“智能体闭环科研”新范式。
按六大学科分类的著名科学大语言模型(Sci-LLMs)时间线概览,涵盖 2019 年至 2025 年初。
科学数据统一分类法
Fig-3 六大学科数据模态词云:文本、符号、图像、时间序列、多组学、结构化表格
表 II 给出 9 种数据源、8 种数据类型的精确定义,可直接拿来写数据管理计划。
模型:演进四部曲
Fig-2 四代范式:Transfer Learning → Scaling → Instruction → Agentic
阶段代表模型关键突破Fig-19 预训练数据模态分布:学术文本 46% vs 实验原始信号
物理:90% 为理想仿真(Illustris、Boltshoi),真实 LIGO 波形不足 1 TB。化学:SMILES 字符串高达 2.3 B,但 3D 坐标+光谱配对 地球科学:MODIS、ERA5 影像多,却缺少“像素级语义标注”。Instruction-Tuning:从问答对→带 CoT 的推理链(Nemotron-Science 2.7 M)。多模态 VQA:医学影像报告生成、遥感变化检测,GPT-4V 自动标注占比 > 80%。表 IV 汇总 150+ 数据集大小、来源、自动标注工具,一键筛选可用资源。
6. 评估:从“答题”到“开实验室”
Fig-23 三大基准难度对比:MMLU-Pro 80%↑ vs HLE 5%↓
新基准任务形式通过率核心难点ScienceAgentBench102 真实论文复现33%需调用 10+ 工具、写代码、调参数HLE (Humanity’s Last Exam)诺奖级问答2–10%谷歌-proof,需多步推理+计算MultiAgentBench多智能体协作42%角色分工、冲突仲裁、共享记忆7. 数据“暗面”:三大系统性缺陷
Fig-27 数据生产-审核流水线:缺乏可追溯、实时更新、AI-Ready 标准
Fig-28 三阶段演化:数据基础设施→科学能力涌现→自主发现闭环
https://arxiv.org/pdf/2508.21148v1A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers来源:走进科技生活