生成式AI破解地球密码:GeoGPT如何变革地学研究范式?

B站影视 日本电影 2025-08-05 18:56 1

摘要:GeoGPT,一个为地球科学家量身定制的领域基础模型,于今年 4 月 27 日正式面向全球开放使用。GeoGPT 受深时数字地球(DDE)国际大科学计划使命愿景启发,初始于云栖工程院,由之江实验室牵头,联合浙江深时数字地球国际研究中心等国内外 25 家机构、4

近年来,生成式 AI 在性能上实现了质的飞跃,但其在应用于科学研究方面仍面临挑战——科学问题的复杂程度远超 ChatGPT 等通用大模型的处理能力。

GeoGPT,一个为地球科学家量身定制的领域基础模型,于今年 4 月 27 日正式面向全球开放使用。GeoGPT 受深时数字地球(DDE)国际大科学计划使命愿景启发,初始于云栖工程院,由之江实验室牵头,联合浙江深时数字地球国际研究中心等国内外 25 家机构、400 余名地学专家联合研发,为全球地学科研工作者提供新的工具和视角,推动地球科学研究范式变革。

目前,以开源基础模型为技术底座,GeoGPT 融合了深时地球数据与智能算法,具备文献解析与数据抽取、领域知识图谱构建、个性化知识助手、地质图识别与问答、科研创意生成等多项核心功能,并已实际应用于岩浆岩数据库构建与应用、古生物数据库构建与分类、地质图智能生成等多个专业场景。这不是简单的科研辅助工具,而是一场地学领域的研究范式的革命,有望推动科研范式从实际观察、实验驱动向计算密集、数据驱动和基于模型变革。

目前 GeoGPT 已正式开源上线,GeoGPT 的注册用户超过 4 万,覆盖 135 个国家,其中国际用户比例超过 25%,获得了海外专家和学者的广泛认可。日前,GeoGPT 在瑞士日内瓦举办的 2025 年 AI for Good 全球峰会亮相并入选国际电信联盟(ITU)《人工智能向善创新实践案例集》(AI for Good Innovate for Impact uses cases),并获 ITU 颁发的优秀创新实践案例奖。

图丨 GeoGPT 已在 GitHub 开源(来源:GitHub)

GeoGPT 支持国内外用户根据实际需求灵活选择基础模型架构,包括 Llama3、DeepSeek R1、Mixtral、Qwen2.5 以及之江实验室自主研发的 021 科学基础模型等。此外,研究团队自主研发了专门优化的推理模型 GeoGPT-R1-Preview,特别注重高效推理与落地部署能力。

图丨支持根据用户需求灵活切换基础模型(来源:GeoGPT 官网)

之江实验室科学数据枢纽研究中心副主任陈红阳对 DeepTech 表示:“我们在开源模型基础上进行创新性解耦,既‘站在巨人的肩膀上’,又能够让 GeoGPT 兼具通用性与领域专业性。即便未来基础模型持续演进,GeoGPT 仍能保持快速迭代新版本的能力。”

特别值得注意的是,GeoGPT 所采用的方法论和技术框架具有可扩展性,可推广应用于天文学等其他学科领域。英国著名地质科学家 Mike Stephenson 教授对此评价道:“GeoGPT 为其他科学领域树立了标杆,它标志着地球科学率先构建了领域基础模型。”

破局者登场:GeoGPT 的“三维立体突破”

地球科学研究在应对气候变化、资源勘探和灾害防治等重大挑战中扮演着核心角色。然而,该领域的发展长期受困于三大核心挑战:数据多源异构且处理困难、海量长尾数据难以有效关联整合以及学科壁垒导致的知识融合障碍。突破这些瓶颈是推动地球科学智能化、协同化发展的关键。

图丨筛选具有公开获取许可的论文(来源:之江实验室)

为了有效地整合链接地学长尾数据,GeoGPT 团队通过知识图谱方法,从海量大模型数据训练库 Common Crawl 中提取地学相关内容,累积获取约 140B 的 token。另外,GeoGPT 在整个训练过程中尊重知识产权,筛选并只使用具有 CC BY 或 CC BY-NC 许可的公开获取论文,截至目前,模型已涵盖 15 家地学相关出版社、182 个出版物以及 28.8 万篇 OA 论文。

为确保数据质量,团队建立了一套严谨的数据生产流程,涵盖数据挖掘、PDF 解析、标注分析、质量筛选等关键环节,通过多维度优化最终产出大规模高质量专业语料。经对比验证,这些语料在专业性和质量指标上均显著优于 Fineweb、DCLM 等主流开源数据集。

研发团队还积极地与地学用户共建科研 Agent 和领域科研数据集,并鼓励科学家通过 GeoGPT 将工具与数据分享给全球用户,最大化实现地学长尾数据链接与共享。

在突破学科壁垒导致的知识融合障碍时,GeoGPT 以本体论为核心框架,引入知识图谱研究的新方法,通过人机协同的方式系统性地建设本体库、知识体系和知识图谱。同时专门开发了可视化、交互式的地学知识图谱构建与应用平台,旨在建立覆盖全面、权威可靠、语义统一的地学全领域知识图谱体系,实现专家知识(人-人)与机器理解(人-机)的双向对齐。

GeoGPT 的动态知识更新机制是其核心技术优势之一,该机制支持领域知识的实时更新与融合演进,不仅持续增强模型的专业能力,更为地学科研和产业应用提供了与时俱进的智能服务。

值得一提的是,系统在设计上特别注重保留不同学科方向对专业概念的差异化定义和内涵阐释,同时完整收录同一概念的所有学科别名,这一设计有效解决了长期困扰地学领域的概念歧义问题,为跨学科研究提供了可靠的知识基础。

从通用到专精,历经 7 次版本迭代

科学领域的模型是否具有通用性?为深入探究这一问题,之江实验室团队自 2023 年 7 月起着手研发 GeoGPT 地学领域 AI 模型,目前已成功完成 7 次重大版本迭代。

“回顾 GeoGPT 的发展历程,这其中既有技术上的决定,也有机制上的决定。团队在充分利用开源基础模型优势的基础上,创新性地构建了地学领域 AI 模型,并持续拓展其应用场景。”陈红阳表示。

在技术攻关方面,研究团队重点突破了以下关键难题:

针对灾难遗忘问题,团队通过系统性地尝试模型融合、模型架构扩展等方案,并结合多阶段渐进式训练策略与数据优化方法,最终实现了专业能力与通用性能的协同提升。

专业数据构建方面,团队开发了融合数据合成与增强技术的解决方案,通过模板微调与领域定向微调(结合强化学习)的双轨策略,不仅提升了模型推理能力,还建立了专业指令合成方法体系,最终构建了高质量的地学问答数据集和地学 RAG 受限数据集。

文档处理技术方面,团队重点优化了文档分割与切片算法。通过研发动态表格解析算法,结合布局特征识别与语义连贯性分析,实现了表格的智能重组与标题关联。同时开发的自适应切片策略,可根据文本密度和图表分布动态调整处理粒度,显著提升了文献解析的准确性。

数据抽取技术上,团队创新性地提出了“需求拆解-分层处理”框架。针对单一模型处理复杂需求时的性能局限,该框架将抽取任务分解为对象识别、属性提取、关系构建等子模块。此前需要一周完成的数据抽取任务,现在用 GeoGPT 不到 1 天就能高质量完成。值得注意的是,GeoGPT 在保持与顶尖商业软件相当解析精度的同时,将推理成本降低了 80%。

强化领域专业推理能力,团队通过系统分析地学教材、专著和科研成果,提炼专家解决问题的思维模式,并借助指令微调与强化学习技术将这些专业思维链注入 GeoGPT,使其逐步具备接近地学专家的复杂问题推理能力。

从开源到推动地学科研范式变革

基于 GeoGPT,之江实验室已与全球地学领域科学家展开深度合作,推动该技术在多个专业场景的实际应用。

其中,与中国地质科学院地质研究所研究员王涛教授团队的合作最具代表性,双方共同构建了从科学问题的提出、数据采集处理、插值计算分析、可视化呈现到研究图件的生成的全链条智能化科研工作流,显著提升了岩浆岩时空物源演化、深部物质演变、大陆地壳生长等方面研究效率。在这一过程中,GeoGPT 作为核心智能中枢发挥了关键的“科研流程串联者”作用。

图丨为基于岩浆岩的深部物质研究提供新思路(来源:王涛教授团队)

GeoGPT 希望未来能够将科研全流程各环节的产出——包括科学假设、处理后的数据、可视化呈现的内容等有机融合,自动生成结构完整、论证严谨的研究报告,以帮助科研工作者实现更高质量的科研工作。

陈红阳说道:“这一目标的实现需要多项关键技术的协同创新,包括自然语言理解、科研需求解析、大数据处理与分析等技术的深度融合,只有通过系统化的技术集成,才能真正实现科研全流程的无缝衔接和智能化。”

另一个典型应用案例是,与美国普渡大学 James Ogg 教授团队合作,共同攻克了全球权威巨著《无脊椎动物专著》(Treatise on Invertebrate Paleontology)的数据化难题。这部涵盖 50 卷、10 万化石属的“数据金矿”,因纸质载体限制和复杂数据结构长期无法被有效利用。研究团队创新性地提出了“AI 批量抽取+专家验证+模型迭代”的协同技术路线:GeoGPT 团队负责研发核心的自动化数据抽取引擎,实现了化石属名、地质年代、生物地理分布等关键信息的结构化转换;Ogg 教授团队则主导数据标准制定、结果验证及可交互数据库(treatise.geolex.org)的构建。

通过这种产学研深度融合的模式,团队仅用 4 个月便完成了 3 卷数千化石属的精准提取,时间成本降低 75%。Ogg 教授高度评价这一成果:“GeoGPT 突破了 Treatise 的数据化瓶颈,将过去视为‘不可能’的化石大数据工程变为现实。”基于当前成果,团队正规划将技术拓展至生物演化树等更高维度的图表数据挖掘领域,进一步推动古生物学研究的数字化转型。

图丨 GeoGPT 团队部分成员在 2025 年欧洲地球物理学联合会 EGU(来源:之江实验室)

“我们的科学合作案例摸索出来的经验表明:AI+地学,不仅是技术上的融合,更是体制机制的创新融合。地学专家与计算机领域专家需要坐到一起深入交流,融合成一个团队,对齐话语体系,才能更深入地理解关键问题。只有当学科边界被 AI 重新定义为协作界面时,才能催生出具有学科穿透力的领域基础模型。”陈红阳说道。

当前,生成式 AI 技术正在全球科研领域引发革命性变革,GeoGPT 有望从两个维度推动地球科学研究范式变革:

在研究效率层面,GeoGPT 通过集成化的智能能力显著提升文献研读、数据提取与处理、知识库构建及科研写作等环节的效率与质量;在研究创新层面,系统凭借其强大的逻辑推理与知识关联能力,可辅助科研人员提出创新性假设,并进行系统性科学验证,从而拓展人类对地球系统的认知边界。

从大模型技术发展趋势来看,地球系统模拟被视为解决诸多关键科学问题的“金钥匙”,但核心挑战在于如何从多维度、多尺度的海量观测数据中抽取出系统运行的基本原理。只有当这些原理模型既符合现实观测又具备足够的完备性时,才能真正建立起可靠的地球系统模拟。

当前,地球系统模拟的发展呈现双轨并进态势:一方面,全球地学科学家通过大气物理、地质化学等特定领域的机理研究,持续完善地球系统的原理模型,这一自下而上的路径依赖持续的理论突破;另一方面,之江实验室开创性地采用 GeoGPT 多模态架构,通过融合地震、勘探等跨尺度传感器数据,构建数据驱动的实时分析系统。尽管 GeoGPT 展现出了显著的增强潜力,但要实现与传统原理模型的无缝协同,仍需攻克多源数据融合、物理规则嵌入等关键技术瓶颈。

参考资料:

国内站:

国际站:

开源链接:

https://huggingface.co/GeoGPT-Research-Project https://modelscope.cn/profile/GeoGPT

GeoGPT 用户手册:

https://zjlab-geogpt.yuque.com/hxsbwb/kw6ett/im86f1mpe25b1gca#ev5MP

岩浆岩数据库 OnePetrology

来源:DeepTech深科技一点号

相关推荐