摘要:在广袤无垠的宇宙中,存在着无数类型各异的天体。借助现代技术,人们能够获取这些天体的丰富信息,包括形状、光谱、坐标、红移、引力透镜、爆发时变等大量数据,进而探究宇宙起源与演变的奥秘。但传统科学技术已难以应对海量数据的处理需求,这限制了天文学研究的进一步发展。
编者按:在广袤无垠的宇宙中,存在着无数类型各异的天体。借助现代技术,人们能够获取这些天体的丰富信息,包括形状、光谱、坐标、红移、引力透镜、爆发时变等大量数据,进而探究宇宙起源与演变的奥秘。但传统科学技术已难以应对海量数据的处理需求,这限制了天文学研究的进一步发展。
为了帮助天文学家分析遥远星系历经百亿年旅程到达太空望远镜的测光数据,微软亚洲研究院联合清华大学天文系以及俄亥俄州立大学(The Ohio State University)开发了大语言模型智能体 Mephisto。Mephisto 以自然语言形式存储知识库,进而学习、分析相关天文学问题,为天文学家提供了新的研究思路,也为初学者提供了有益参考。
天文学起源于人类仰望星空时对未知的好奇心。作为历史最悠久的学科之一,天文学曾多次引领人类文明的科学革命。在 AI for Science(科学智能)发展如火如荼的当下,基于大语言模型(LLMs)的科学智能体是否也能协助天文学家探索宇宙,发现未知?
天文学是一个相对“小众”的学科,除去诺贝尔物理学奖带来的高光时刻,天文学家大部分时间都隐匿于大众的视野之外。如果用一句话来概括天文学家的核心任务,那就是为宇宙中的各种观测现象——小到每一个氢原子,大到整个可观测宇宙——寻找一个合理的“解释”。
天文学与其他学科有两大根本区别:
宇宙中天体的物理条件过于极端,导致天文学的研究对象无法在实验室中开展控制变量实验,因此其理论框架中的大部分内容都存在争议,即便是一个小问题往往也存在几种甚至数十种在一段时间内无法验证的理论;天文学研究的成果通常不具有直接的现实意义。与蛋白质合成和材料发现不同,天文学研究成果通常是作为一种可解释的白盒模型来推动其他学科的发展,例如太阳的谱线观测直接推动了量子力学的诞生,广义相对论的首次验证源自对水星进动的观测等。这两个特点使得天文学研究对可解释性的要求极为严格,这也限制了黑盒人工智能模型在天文学核心问题中的广泛应用。然而,大语言模型通过在大量文本中进行预训练,不仅掌握了丰富的天文学基础知识,还拥有强大的逻辑推理能力,使其能够构建因果模型来解释观测现象。
在此背景下,微软亚洲研究院与清华大学天文系以及俄亥俄州立大学(The Ohio State University)的研究员们联合开发了大语言模型智能体 Mephisto,并首次将其用于对由詹姆斯·韦布空间望远镜(James Webb Space Telescope, JWST)观测到的高红移星系的深入分析,为宇宙诞生之初的“小红点(Little Red Dots)”提供了可能的解释,开创了将大语言模型作为逻辑推断引擎进行科学发现的新范式。
Interpreting Multi-band Galaxy Observations with Large Language Model-Based Agents
论文链接:https://arxiv.org/pdf/2409.14807
小贴士:高红移星系是指那些距离地球非常遥远的星系,它们发出的光在到达地球的过程中,由于宇宙的膨胀,波长被拉长,导致光谱向红色端移动,这种现象称为红移。红移的数值(z)表示星系远离地球的速度与光速的比值,红移值越高,星系离我们越远,也越古老。
图1:人类天文学家的工作模式:由空间望远镜对成千上万的星系进行观测,天文学家从中发现“有趣”的源并试图使用一系列物理模型对其进行解释。(图像来源:NASA, I. LABBE)
在传统天文学研究中,分析单个星系的物理性质是每一个天文学研究生新生的必修课。研究人员需要对星系形成理论有深入的了解,并对大量观测数据进行分析,才能建立足够扎实的专业技能。即便对于那些已经拥有丰富专业知识和经验的研究人员而言,仔细探究一个星系的性质、排除各种假设,也是一个耗时的“体力活”。
而大语言模型智能体 Mephisto 则可以帮助天文学家分析那些经过百亿年旅程才到达空间望远镜的遥远星系的测光数据。Mephisto 能够基于给定的测光数据提出相应的星系物理模型,并与一个名为 Code Investigating GALaxy Emission (CIGALE) 的星系光谱模拟程序交互,评估当前物理模型与实际观测数据的差异,分析其中可能的仪器系统误差或者物理模型的不适用性,同时通过不断调整星系物理模型的假设与参数先验,为观测数据寻找若干种可能的解释。
因拥有以自然语言形式存储的知识库和存储模块(memory),这使得 Mephisto 能够从之前的尝试中进行学习,避免重复失败的路径。其知识库包含了与专业相关的技能知识,并且可以在与人类天文学家的交互以及对实际观测数据的互动中,利用强化学习提升自身能力。
Mephisto 提取的知识库具有现实的物理意义,反映了各种物理模型在不同情况下的优势和局限性,为人类天文学家提供了新的研究思路,也为初学者提供了有益的参考。通过模仿科学家的思考方式,Mephisto 将提出假设与不断优化的过程形式化为一个树搜索框架,保证了最终的科学结论来自于整个推理过程的深入分析。
研究员们在多样化的数据以及前沿科学问题上的测试证明了,Mephisto 可以在持续的搜索中不断提出更加符合观测数据的物理模型,并在这一过程中利用改善机制(self-reflection),学习更多的星系物理知识,进而提出更精准的假设。
如图3所示,通过提供星系在不同波段发出的光流量大小数据,Mephisto 从一个基础模型出发,持续探索和改善,发现了与当前星系观测数据更吻合的解释。在这一探索过程中,Mephisto 不仅逐渐完善了当前观测的可能的假设空间,还验证了科学结论对模型选择的鲁棒性。天文学家可以根据这些报告制定更新的观测计划,修正理论模型,逐步拓展科学的边界。
图3:Mephisto 对 JWST LRD 的最新观测数据 JADES ID 90354 的分析过程
图4:Mephisto 所提出的物理假设随着推理深度(inference depth)以及学习深度(run depth)的演化过程。图中 Y 轴为模型和数据的拟合优度,可以发现随着推理深度与学习深度的提高,Mephisto 可以逐渐提出更好的假设。
在处理前沿科学问题方面,例如 JWST 观测到的小红点——一类可能彻底颠覆天文学家对宇宙认知的天体时,Mephisto 也表现出了专业研究人员甚至更高的水平。“Mephisto 能够全面探索所有关于‘小红点’的潜在假设,帮助天文学家更深入地理解这些超出现有理论框架的天体的物理内涵,进而可能带来全新的科学发现。”高红移星系研究专家、清华大学天文系副系主任蔡峥教授评价道。
如图5所示,在星系恒星质量、尘埃消光与是否存在超大质量黑洞的三维坐标系下,Mephisto 充分遍历了所有可能的物理假设,得出的结论与人类天文学家(图中红点所示)相似,甚至更加完备。这类星系在早期宇宙中大量存在,极大地挑战了目前的宇宙学理论。Mephisto 作为人工智能助手,能够持续挖掘此类数据,帮助人类天文学家拓展宇宙认知的边界。
图5:Mephisto 在 JWST LRD 的最新观测数据 JADES ID 79803(一个宇宙形成12.7亿年时的早期星系)上的表现与人类天文学家相似,甚至更加完备。目前天文学界的两种主流解释为:一个充满尘埃的恒星形成星系,或是一个拥有超大质量黑洞的缺乏尘埃的星系。
“传统上,天文学家只能通过某些启发式的标准快速筛选观测数据,只有最有潜力的天体才会得到专家的深入分析,而大多数星系都未曾被详细研究。大语言模型智能体 Mephisto 的出现改变了这一局面,它让我们在数据爆炸的今天也能够对观测到的数十亿个星系进行深入分析,帮助研究那些行为与现有物理学理论不符的异常天体。这一技术正加速推动我们突破科学知识的边界。”来自俄亥俄州立大学天文系的丁源森教授评论道。
相比传统的人工智能应用,Mephisto 革新了天文学家与人工智能的交互方式。天文学家们现在可以通过自然语言直接与人工智能进行交流,将他们的领域知识和需求直接反馈给人工智能,无需进行反复且成本高昂的训练过程,人工智能也能够将发现以自然语言的形式反馈给天文学家。这种以自然语言表达的知识可以在不同的星系光谱模拟程序和大语言模型之间迁移,无需重复训练。
Mephisto 的推理过程严格遵循目前的星系形成理论,实现了白盒的求解过程,这与天文学追求的可解释性完美契合,意味着 Mephisto 可以无缝融入到当前的科学研究范式中。更重要的是,Mephisto 具备自主学习和持续进化的能力,能够在分析大量数据的过程中不断学习,同时避免了人类科学共同体可能存在的偏见,从而提出尚未被充分考虑的假设,进一步拓宽人类科学家的认知边界。
作为天文学家的人工智能助手,Mephisto 能够在超级计算机上夜以继日、不知疲倦地挖掘那些尚未被充分研究的星系测光数据,并将有趣的发现反馈给人类专家。同时,天文学爱好者也可以借助 Mephisto 更多地参与到天文学研究中。未来,将大语言模型作为逻辑推理引擎,实现科学分析的自动化,这一新范式将深入天文学研究的各个领域,持续激发天文学领域的创新活力。
来源:微软亚洲研究院一点号