摘要:10月15日,中国国际大学生创新大赛(2025)冠军争夺赛,清华大学万格智能团队自主研发的项目“基于类脑架构的下一代通用模型与智能体生态”夺得大赛冠军。
10月15日,中国国际大学生创新大赛(2025)冠军争夺赛,清华大学万格智能团队自主研发的项目“基于类脑架构的下一代通用模型与智能体生态”夺得大赛冠军。
这个比赛,覆盖全球161个国家和地区,5673所学校,超过两千万人次报名。
当一个名叫陈威廉的年轻人站上台,开始阐述一个名为“基于类脑架构的下一代通用模型及智能体生态”的项目时,很多人可能还没意识到,一个关于AI未来的新故事正在开启。
获奖团队叫“万格智能”。创始人是三个清华2019级的本科生,陈威廉、施然、王冠。
去年底,他们已经完成了2000万美元的种子轮融资(大约是1.58亿人民币)。估值冲到了2亿美元。
一群大学生,手握一个估值超过十亿人民币的AI项目。背后是一场对当前主流AI技术路线的大胆突破。
给大模型的概率独木桥换条道
今天我们谈论AI,绕不开ChatGPT、豆包这些大语言模型。
它们的本质是什么?
陈威廉用一个非常简单的例子解释了。
你问它,“昆虫有几条腿?”
它会告诉你,“昆虫有6条腿”。
这个答案无比正确,但它是怎么得来的?它不是真的理解了“昆虫”这个生物概念,也不是具备生物学知识进行了逻辑推理。它的核心逻辑是基于概率。在它“读过”的海量互联网数据里,无数次出现“昆虫”和“6条腿”这两个词的强关联,于是它给出了一个它认为概率最高的答案,这个可能性或许是99%。
大语言模型,本质上是一个极其聪明的“概率鹦鹉”。它通过学习海量数据,掌握了语言的规律和知识的关联性,但这种掌握是统计层面的,不是理解层面的。
这就带来了两个几乎是宿命般的痛点。
一个是数据。大模型的胃口是无底洞,需要源源不断的高质量数据来投喂。全世界的公开数据,几乎快被它们吃完了。数据耗尽的那一天,就是这条技术路线的天花板。
另一个是幻觉。因为不理解,只做概率猜测,所以大模型会有“幻觉”。它无法真正理解一个复杂任务的逻辑,更难以进行需要多步推理的决策。
万格智能团队要做的,就是让AI摆脱对大数据的依赖,摆脱概率的束缚,让它真正学会像人一样去“思考”和“推理”。
他们拿出的解决方案,叫作“智人HRM模型”。
HRM(Hierarchical Reasoning Model)的全称是分层推理模型。
这个模型的灵感,直接来自我们自己的大脑。
神经科学的研究发现,人脑处理信息的方式是“分层—循环”的。大脑皮层的不同区域构成了多级层次结构,比如前额叶这种高级脑区,负责的是抽象的、长期的规划;而一些低级脑区,则处理具体的、短期的任务。大脑还在不同的时间尺度上同步处理信息,从神经元毫秒级的放电,到秒级的认知决策。
智人HRM模型就参照了这种机制。
它有两个核心的循环模块。一个像公司里的CEO,是高级模块,转得慢,负责做抽象的规划和决策。另一个像一线员工,是低级模块,转得快,负责处理快速、具体的计算和执行。
CEO给员工下达一个战略方向,员工快速执行并反馈结果,CEO再根据反馈调整战略。这样一个前向传递过程,就完成了一次有序的推理任务。
这套架构带来的好处是革命性的。
在arXiv上公开的论文里,这个模型的一些数据,堪称惊人。
它具备了更强的推理能力,能更好地理解数据背后的规律,而不是仅仅记住数据的表象。在一些高难度的任务上,比如解复杂的数独谜题,或者在大型迷宫里找到最优路径,HRM模型几乎能做到完美。在衡量通用人工智能能力的关键基准ARC(Abstraction and Reasoning Corpus,抽象与推理语料库)上,它的表现甚至超过了那些拥有更长上下文窗口的、体型庞大得多的模型。
它拥有极强的小样本学习能力。大模型需要数万亿token的数据进行预训练,而HRM模型只需要几百或者几千个训练样本,就能在复杂推理任务上达到卓越的性能。这就像一个天才学生,看几道例题就能举一反三,掌握解题规律;而普通学生则需要通过题海战术,刷无数道题才能记住所有题型。
因为它推理效率高,资源调控灵活,所以能大幅节省算力。这意味着AI的门槛可以被极大地降低。
这个模型的参数量只有2700万,也就是0.027B。
这是什么概念?
GPT-3的参数是175B,一些开源模型的参数动辄也是几十B、上百B。智人HRM模型的参数规模,连它们的零头都不到。
它可以轻轻松松在手机上本地运行。
当全世界的科技巨头都在疯狂地堆叠算力、扩大参数规模,试图用更大的模型、更多的数据来逼近智能的终点时,这群中国的年轻人选择了一条全新的路。
他们没有去卷那个已经拥挤不堪的赛道,而是直接釜底抽薪,尝试为AI更换一个更聪明的“大脑”。
气候预测专家模型已达到业界顶尖
基于智人HRM模型,团队研发了气候预测专家模型。
具体来说,是次季节到季节(S2S)的气候预测。
这是什么时间尺度?未来两周到两个月。
这个时间范围,在气象学上有一个非常形象的名字,叫作“预测沙漠”。
为什么是沙漠?
因为传统的天气预报模型,比如我们手机上看未来几天的天气,它在短期内(几天到一周)很准。但一旦超过两周,混沌效应会让它的预测能力急剧下降,几乎失效。而长期的气候变化模型,预测的是几年甚至几十年的趋势。
唯独中间这两周到两个月,不上不下,极其尴尬,成了现代气象预测的一块空白。
这片“沙漠”却至关重要。
农业生产需要根据这个时间段的气候来规划播种和收获。水资源管理部门需要它来做水库的调度。能源部门需要它来规划电力的分配。防灾减灾部门更是需要它来提前预警可能的干旱、洪水等极端天气事件。
万格智能团队,就把他们的智人HRM模型,用在了这片“沙漠”里。
他们研发的S2S气候预测专家模型,已经达到了业界顶尖水平。
气候系统是一个极其复杂的非线性系统,各种因素相互作用,牵一发而动全身。想要准确预测,需要的恰恰不是对历史数据的死记硬背,而是对这些复杂相互作用的深刻理解和推理能力。
这正是HRM模型的强项。它强大的推理能力,让它可以像一个真正的气候专家一样,去分析和理解复杂的气候系统,从而做出高精度的预测。
它的小样本学习能力,也在这里发挥了关键作用。高质量、长周期的气候观测数据其实非常有限。HRM模型不需要海量数据投喂,就能在有限的历史数据上完成有效训练,这大大降低了模型的应用门槛。
它的高效计算能力,让气候预测不再是国家级超算中心的专利。普通的计算设备就能快速运行,让更精细化的气候服务成为可能。
属于年轻人的时代
陈威廉在接受采访时说过一句话:“我们在前辈的基础上已经接触了最新的成果,同时对行业和技术发展有较强的敏感性,也有强烈的好奇心,更愿意跳出旧有的框架,尝试新的领域。”
这是新生代科技创业者的自信。“从时间上来看,相信我们很快就能超越马斯克。”
他们成长于数字时代,AI对他们而言不是一个遥远的概念,而是像空气和水一样自然的存在。他们没有历史包袱,没有思维定式,所以他们敢于去挑战最根本的问题。
万格智能,一个关于技术、远见和勇气的样本。
参考资料:
来源:算泥社区