摘要:大模型在科研探索中发挥的价值远比以往任何时候都深入,无论是海量数据的处理、复杂文献的梳理,还是编程开发的瓶颈,大模型都能提供切实的解决方案。基于此,2025 年 4 月 12 日,和鲸社区联合上海人工智能实验室 OpenDataLab 平台举办的大模型赋能科
大模型在科研探索中发挥的价值远比以往任何时候都深入,无论是海量数据的处理、复杂文献的梳理,还是编程开发的瓶颈,大模型都能提供切实的解决方案。基于此,2025 年 4 月 12 日,和鲸社区联合上海人工智能实验室 OpenDataLab 平台举办的大模型赋能科研分享会于上海市徐汇区成功举办。
会议聚焦大模型技术在科研全流程中的创新应用,特邀上海人工智能实验室 OpenDataLab 开放数据平台负责人魏利群、同济大学经济与管理学院特聘研究员胡维老师、产品设计师&AI 应用探索者刘中顺、香港城市大学数据科学专业在读研究生李浩鸣,系统解构大模型如何重塑从数据获取、处理分析到成果产出的科研闭环,帮助更多科研人掌握如何使用 AI 大模型助力自己的论文撰写和科研工作,吸引了 50 余名数据爱好者及技术开发者线下参与,更有上千名观众通过视频号在线观看。
01 从语料下载到文献解析:OpenDataLab 与 MinerU 帮你搞定大模型数据来源
上海人工智能实验室 OpenDataLab 开放数据平台负责人魏利群为在场人员详细介绍了 OpenDataLab 与 MinerU 在大模型数据来源方面的重要作用。OpenDataLab 作为国内最大的开源数据平台,已成为科研人员获取数据集的有力助手。目前平台上有 7700 余个精标数据集,覆盖预训练、微调、评测全周期,支持 40+数据模态(文本/图像/点云等)与 50+科研任务类型,并提供标准化元数据描述与可视化预览功能。
而针对非结构化数据处理难题,其开源的 MinerU 智能文档工具实现三大突破:多类型PDF(扫描件/图文混排)的精准解析;数学公式 LaTeX 编码输出,支撑学术论文结构化分析;跨语言文档处理支持中文、阿拉伯语等 12 种语言。当前,MinerU 已在 GitHub 获 3 万星标,提供在线转换(支持 200MB 或600 页以内文件)与本地部署两种模式,通过 Conda 虚拟环境管理实现一键式安装。分享最后,魏利群现场演示了 MinerU 转换获奖论文的全流程,为科研人员在数据获取和处理方面提供了新的思路和有力工具,助力在大模型时代更高效地开展科研工作。
02 大模型 x 经管科研:关于高效科研的思考
同济大学经济与管理学院特聘研究员胡维老师结合全球 20 余项顶刊研究成果,对大模型发展及能力边界和其在经管科研领域的应用进行了分析。尽管大模型功能愈发强大,但依旧具有以下能力边界缺陷:
幻觉(Hallucinations):大模型会产生看似合理却无逻辑的输出,原因包括训练数据与事实不符、生成内容非信息性、缺乏实时基础等; 刻板印象(Stereotype):大模型生成文本存在刻板印象,且特定词汇生成频率高,图像大模型对不同人群的生成形象也很刻板; 非人性化(Dehumanization):研究表明人们在与AI等非人类代理互动时,倾向于将这些代理视为不具备人类情感、道德或社会责任的存在。这种认知会导致人们在行为或态度上对其他人类表现出冷漠或忽视,例如减少预期内疚感、降低亲社会行为等。因此,胡维老师强调要重视 prompt,学会与大模型协作,并推荐了系列大模型工具以供参考。随后,胡维老师基于金融、会计、营销、信息系统等大模型助力经管科研方向案例,分展示了大模型在经管领域的广泛应用潜力和创新价值,为与会者展示了特定学科领域下的科研范式实践:
金融:利用 Bert 开发的新指标为衡量公众金融态度提供了新视角; 会计:聚焦 AI 对审计公司及其从业人员的影响,并在提高文本分析效率和拓展研究问题的潜力; 营销:生成式技术在搜索引擎内容排名以及文本内容极化等方面展现出独特影响; 运营管理:GPT 4 开发的新指标为服务化中的信息共享提供了新见解; 信息系统:反馈者模式显著提高了广告内容质量。分享最后,胡维老师表示,“大模型是科研的加速器,但思想与创造力始终是核心。”
03 零基础,如何让 AI 服务于我的科研需求?
AI 应用探索者刘中顺围绕 AI 客户端选用、模型抉择技巧以及在科研领域的实操应用展开,为与会人员打开了一扇通往高效科研的新大门。
在 AI 客户端选用方面,刘中顺深入剖析了 Chatbox、LM studio、Chatwise、Opencat、Cherry Studio 等众多热门工具的特点与差异。例如,Cherry Studio 功能丰富且开源,支持常规模型、第三方服务及网页嵌入,还能快速切换调用不同 AI 工具网页版;LM studio 专注本地模型推理,适合对信息保密要求高的用户;而 Chrome 插件(Pages list)则为不想安装客户端的用户提供了便捷选择,兼容市面上约 90% 网络行为。
面对众多模型,如何选择适合自己需求的成为关键。从上下文窗口来看,不同模型差异显著,谷歌部分模型上下文 token 窗口可达 100 万,若工作对上下文要求极高,Google 模型是推荐选择;在多模态处理上,Google 模型优势明显,能高效处理音频、视频、PDF 等多种格式文档,对手写内容识别效果也较好,涉及多模态文档工作的用户可优先考虑;编程能力方面, Gemini 2.5 Pro 在 AI 辅助编程方面表现突出,适合处理大型项目。
在实操应用环节,刘中顺现场演示了 AI 辅助的文献泛读方法。以角膜塑形镜相关文献综述为例,基于 Google 的 AI studio 体验平台,用户打开 AI studio 页面选好模型后上传需解析的文档并给出提示词,例如要求根据文献摘要或综述输出为 Markdown 格式;模型接收到指令后进行检索,随后即可生成包含描述内容、文献编号且引用原文和数据角标标好的综述,大大提升效率。
刘中顺还分享了基于 chatwise+pumbed MCP 在科研文献处理方面的创新应用,MCP 作为较新的概念,在 GitHub 上已有不少相关服务。通过在 GitHub 搜索相关 MCP 服务,配置好环境变量后,便能调用 MCP 服务获取相关文献摘要。若遇到英文内容,还可通过 AI 聊天方式让其翻译成中文。科研人员可通过在 GitHub 等开源平台检索相关服务,搭配顺手的客户端,实现高效的文献处理操作,为科研工作带来新的助力。
04 AI 辅助科研编程:从数据分析可视化到应用发布
香港城市大学数据科学专业在读研究生李浩鸣以大模型辅助科研编程的实战案例为主题,深入探讨了大模型在数据分析可视化、企业级应用场景中的高效运用。
李浩鸣首先以航空公司客户满意度数据集为例,展示了如何利用大模型实现数据分析与可视化。用户无需掌握编写代码技巧,仅通过与大模型交互,便可轻松生成了柱状图等可视化图表,并完成了数据清洗、唯一值统计、变量分布分析等一系列操作。在企业场景中,李浩鸣分享了利用大模型提升 SDR 工作流效率的实践经验,他介绍,传统会议纪要与信息提取工作耗时较长,而借助大模型,通过格式化字段提取,整个流程仅需 2-3 分钟即可完成。他详细演示了如何通过飞书 API 或定制化 AI 小程序实现会议纪要自动写入表格的过程,包括获取 access token、确保数据格式匹配等关键步骤。经过代码优化与封装,该应用不仅实现了基本功能,还提升了可读性,可供公司同事直接使用,也为其他部门提供了参考范例。
本次分享会虽已落幕,但和鲸社区携手众多数据爱好者共建的科研创新生态正在加速生长。十年来,和鲸始终与众多数据爱好者与开拓者同行,以“协同平台 + 实践社区 + 竞赛服务”三位一体的数据科学与人工智能基础设施建设体系,助力各行各业打通数据的价值闭环,实现 AI 赋能应用落地。
您可访问和鲸官网AI.heywhale.(括号删除).com,点击立即体验,即可免费试用科研提效工具!和鲸将持续搭建产学研对话桥梁,若您也想联合举办或参与此类分享,欢迎点击官网上的联系工作人员信息。
来源:和鲸