摘要:本期《锚点》专栏展示了中国科学技术大学科技传播系副主任袁岚峰研究员与中国科学技术大学机器人实验室主任陈小平教授的对谈内容,原题为《大模型为什么不会数数?》。
关注,从此你的世界多点科学~
锚 点
INTERVIEW
本期《锚点》专栏展示了中国科学技术大学科技传播系副主任袁岚峰研究员与中国科学技术大学机器人实验室主任陈小平教授的对谈内容,原题为《大模型为什么不会数数?》。
陈小平
中国科学技术大学机器人实验室主任
导读:
大模型有什么缺点?许多人都已知道,大模型有时会产生幻觉。但最近,我才知道:大模型居然不会数数!
比如,你若生成一个包含27个波浪号的字符串,然后问大模型有多少个波浪号。你会惊讶地发现,大模型的回答有时是28个,有时是29个,有时是25个……但始终无法给出正确答案。
如果你打开“深度思考”,观察大模型的“思考”过程,你就会发现,它翻来覆去地琢磨各种方法,偏偏就不能直截了当地数出来。有时因为“思来想去”,大模型甚至死机了。这并不是脑筋急转弯,而是所有大模型普遍存在的问题。
为什么会这样?我的前辈、同事、中国科学技术大学机器人实验室主任陈小平教授对此有深入的认识。陈小平教授指出,大模型不仅不会数数,也不会等量代换,如它无法从a=b推出2a=2b。这些问题的根源,都与大模型输出的语境相关性有关,而这恰又是大模型厉害之处。
Q:数数在数学上有严格定义,它的理论基础源于皮亚诺公理。先有一个数叫零,存在一个“加一”的操作,任何一个自然数都可以进行这个“加一”操作,所有这些后继数无穷延伸便构成自然数。因此,“加一”就是数数,整个自然数由零和“加一”操作定义。
A:
是的,掌握这一规则,便从原理上懂得了如何数数。但大模型并非如此,它是通过大量例子重构出数数的方式。因此从原理上来看,它并没有掌握数数的本质,所以大模型不会数数。
Q:针对大模型必然会发生这一现象,您提出了一套公理体系,请问这是什么理论体系?
A:
系统”。众所周知,大模型具有不可解释性,仍是一个“黑箱”,其原理不为人知。传统逻辑是封闭的,只能解决封闭性问题,面对非封闭性问题往往无效。因此,我之前一直在思考能否找到一种反逻辑的方法,也就是跳出逻辑边界,使其既能解决逻辑无法解决的问题,又能遵守逻辑的可靠性。ChatGPT发布后,我深感此事的紧迫性,于是投入较多时间去研究。我认为我提的这套公理体系能够描述大模型的底层原理。当然,这仍是一个假说,其成立与否需要大量实验来检验。
Q:您所说的公理体系“类LC”是什么意思?这个系统有什么特点?
A:
L代表系统(这是逻辑领域的习惯表述),c代表关联(correlation,即相关性),因此称为“类L系统”。类L系统的特点在于,它并非单纯的逻辑系统,因为传统逻辑无法描述大模型底层原理;也不是纯粹的统计系统,现有的统计理论不足以阐释大模型;同时,它还包含部分决策论规划的成分,但决策论规划同样无法完整描述大模型的底层逻辑。类LC公理体系融合了这三者的部分特点。我们尝试通过三条公理来描述大模型的底层原理。Q:具体来说,这三条公理是指什么?
A:
在大模型里,有个基本概念叫Token,我将它翻译成“语元”,也就是语言的基本单元。大模型是不考虑短语、句子的,它只关注语元,以及语元和语元间的关联度。
第一条公理是说,在一个给定的上下文里,其中任何一个语元和另外一个语元之间都有关联度。
第二条公理相对复杂。大模型做预测时,会综合上下文中所有语元的关联度。它把所有的Token都拿来,然后在第一个语元跟语境里的所有语元之间寻找关联度;第二个再拿来,再找所有的关联度……最后选综合关联度最高的那个。
这是理论上的情况。而当关联度不足以支撑决策的时候,也就是通过逻辑、统计和决策论都找不到通用合理的标准时,不同的大模型就有它自己的决策选择,这导致不同大模型会有不同的表现。大模型出问题往往也是在这个环节。
总的来说,第二条公理在做比较但不做选择,而第三条公理则表达选择这个动作。大模型有时选取综合关联度最高的,但有时也不这样选,比如ChatGPT就不选最高的,甚至有时为避免表达啰唆会故意选较低关联度的结果。(虽然有时候这种选择结果让人产生“跑偏”的感觉,但部分用户反而觉得富有创造性。)
”,原因就在于,其中的公理一和公理二是所有模型都会遵守的,但公理三因场景不同,大模型输出的结果会有所差异。从这三条公理可以看出,大模型无法保证输出的可靠性,但能够推导证明出某些结论。也就是说,无论你提出什么问题,它总能给出结果,这在人工智能中被称为“全知性”。不过我认为应称之为“伪全知性”。
Q:这就像大家聊的一个笑话。有人自称计算速度很快,当别人抛给他一道复杂的数学题时,他立刻报出一个答案,而当别人指出他的结果错误时,他却反问:“你就说算得快不快吧!”您还观察到大模型有什么其他特征?
A:
系统来看,大模型没有反思能力。DeepSeek增加了“深度思考”能力,人们往往认为它具备了反思能力。但我认为严格意义上的反思,是指能够回头重新审视自己刚才完成的思考过程(即决策生成的过程),并对该过程的正确性做出判断。而大模型在面对多种方法和不同答案时,并不会判断哪个正确、哪个错误,只是输出最后一个答案。此外,大模型也不具有“传递性”。逻辑推理有很多种,包括经典逻辑和非经典逻辑,它们有一个共同的底层特性,即传递性:如果A能推出B,B能推出C,那么从A一定能推出C。大模型不具备这种传递性,但它存在另一种传递性。
它的这种传递性难以从实验中观察到,却可从类LC系统中推导出来,被称为“基于语境扩展的传递性”。比如,先向大模型提出一个问题,它会给出一个回答,大模型会把这个输出的语元纳入上下文中;在进行下一次预测时,大模型会基于已纳入上下文的语元生成新内容,也就是说,它会以这种方式重新考虑自己之前说过的话,这就是它的传递性。但这种传递性会引发一种后果,即“语境纠缠性”。具体来说,当大模型在表达中使用无关词汇时,这些词汇会对后续表达产生影响,最终导致语境陷入纠缠状态。Q:我们是不是可以认为,大模型的根本困难就在于语境纠缠性?
A:
直接的表现就在这个语境纠缠,也就是受语境的干扰,不过根本机制还在于自然语言是非封闭的。根据三条公理,大模型通过大量例子训练后变成非封闭性的了。过去的人工智能系统是封闭的,针对非封闭性问题,还具有可靠性;而现在的大模型是非封闭的,去回答非封闭性的问题,意味着结果不完全可控也不可解释。
Q:您将大模型的思维方式描述为“志象思维”,这个词是什么意思?
A:
这个词是相较于抽象思维、形象思维提出的。人有形象思维,也有抽象思维。比如做科学研究时需要抽象思维,在进行艺术创造时需要形象思维,而在日常生活、工作中,体现的是另外一种思维方式,我称之为“日常思维”,它的特点在于“不深究”。
这种思维特性与大模型的关联度预测思维方式很像,也就是从概率上来看,相关的思考判断是有道理的。人们在日常生活、工作中处理问题往往也是这样——“我”平时习惯就是这样,“我”按照习惯来处理。我将这种思考方式概括为“志象思维”。这里的“志”是“标志”的意思,对应到大模型里就是语元。
Q:您认为大模型的思维方式还有另外一种显著特征,也就是“弱共识性”,这个怎么理解?
A:
抽象思维是需要“强共识”的。
比如掌握科学的概念和原理,我认为光靠上课和考试达不到“强共识”。我们对牛顿力学的理解,是否与牛顿本人的理解一致?如果跟牛顿理解的存在偏差,这就意味着我们没有和牛顿达成强共识。在物理学的研究中,我认为真正的学者之间是达到了强共识的,也就是他们的理解是一致的。但这种一致无法用文字完全表达出来。我再打个比方:我们学习一门科目,即使考了很高的分数,你让我评价自己这门课学会了多少,我也认为“我只会一点点”。
科学界沟通交流是需要强共识的,但大模型不需要,它们只需要弱共识就行了——它们只看那个“标志”以及标志与标志之间的统计关联。
Q:现在很多人认为大模型存在的最大问题是“幻觉”。
A:
说到大模型的幻觉,目前尚未对“幻觉”严格定义。我理解这里“幻觉”是指,在数据不充分时,大模型从数据中提取关联度,这个关联度是有偏差的,然后基于这些有偏差的关联度再进行预测,结果可能不正确;即便预测结果正确,也只是统计意义上的正确,而非逻辑层面的正确。
那么,人们为何会认为大模型存在幻觉呢?主要原因在于人们对大模型的内部机理、机制理解尚不到位。实际上并非大模型产生了幻觉,而是人对大模型产生了幻觉。
Q:后来人们开发了改进的方法,比如说DeepSeek展示了深度思考,也就是“思维链”,减少了很多出错的概率。对于这些改进,您怎么看?
A:
我的判断与很多人不同。不少人认为当前大模型仍处于早期阶段,只要投入更多训练,补充更多数据,持续改进算法,其存在的问题会逐渐减少,直至完全消除。但在我看来,这一目标是无法实现的。
大模型的增长曲线起初上升迅速,如今已趋于平缓,再往后甚至会进入平台期。它确实会不断改进,但改进带来的提升幅度会越来越小,而且始终无法彻底解决这些问题。也就是说,大模型可以不断改进,但不可避免有出错的概率。
有些人认为,当大模型的问题缩小到一定程度时,我们就可以忽略这些问题。但在我看来,它不太可能达到我们期望的那种可忽略的程度。更关键的是,大模型若出问题,并非简单停留在“算错某些题目”这类错误上,而是有可能引发危险。
我们现在无法预判它会出现何种问题,也没有应对预案,而一旦这类问题发生,社会根本就无法应对。从科学角度判断,这种可能性是存在的。这也正是包括部分国际知名学者在内的研究者,始终强调大模型存在危险的核心原因。
Q:我记得,杰弗里・辛顿(Geoffrey Hinton)2024年刚获得诺贝尔奖时曾表示:“我认为未来十年之内,人工智能导致人类灭绝的概率,是一个不可忽略的比例。”
A:
我们认为风险是存在的,的确应该重视风险,但是也不能过分地渲染。
Q:您提过一个观点,即“大模型是影子的影子”,这个比喻是怎么来的?
A:
大模型是一种机器智能,这种智能虽与人的智能有相似之处,但本质上仍不相同。它确实从轮廓上反映了人类的语言,不过在诸多细节上还是与人类语言存在差异。大模型主要反映的是人类语言的习惯与统计规律,而像逻辑推理、因果关系等,它并未体现,因此它终究只是人类语言的“影子”。
这句表达源自“生命是火,思想是火光,语言是光的影子,大模型是影子的影子”。这是我在和哲学界交流时用的四个类比。有一派认为机器最终能拥有人的智能,我是不同意这种观点的。人类最本质的东西是生命,生命在激发状态下才产生思想,思想在运用时会使用语言,通过语言人工智能与人类交互,产生了大模型。这些环节的传递都是一种投射,类似“光是火的一种投射,影子是光的投射”,大模型是语言的投射,所以它是影子的影子。
Q:那么应该如何正确理解大模型?
A:
从理论层面来看,目前对大模型最好的理解就是用“类LC系统”来描述它的底层规律,但这可能并不够,因为不同大模型在细节行为上存在差异,还需要从算法层面进一步探究。而这又与大模型是否开源密切相关。如果大模型都不开源,外界无法知晓其算法具体是什么,我们对它的认知就只能停留在类LC系统理论这一步,因此开源十分必要。
从大众视角来看,理解大模型可以借助“志象思维”,也就是说,它和我们的日常思维方式类似——无法深究,可能会犯错——不能完全相信它。不过我认为,即便大模型目前在原理上存在局限,它依然可以有诸多应用。只要我们做好安全保障与伦理治理工作,它仍然可以为人类提供服务。同时,我认为确实需要加强人工智能的伦理治理,尤其是人工智能的安全问题。甚至有部分国外学者提出建议:大模型公司应将自身至少1/3的算力用于人工智能安全领域。这一观点是有一定道理的。
Q:说到治理,有一种做法就是制定相关标准。不久之前,中国颁布了一项规定,明确从2025年9月1日起,所有人工智能生成的数据都需进行标注。
A:
制定这类标准并非易事:若标准制定得过于严格,可能会限制人工智能的发展;若过于宽松,又难以避免未来出现问题。这无疑是个两难的选择。我认为中国采取的这项举措非常重要,人工智能生成的内容确实需要标注,而这一规定也让标注的责任落到了用户身上。
我认为,我们还要加强科普,让大众建立这样的概念:大模型并非百分之百正确。如果已经明确告知内容是大模型生成的,也提醒了它的结论不是百分之百正确的,可有人依然选择百分之百相信,那么由此产生的后果,理应由其自身承担。
Q:说到人工智能,现在人们想到的几乎全是大模型,却忘了其实还有许多大模型之外的人工智能应用。
A:
现在大家了解较多的人工智能类型是“生成式人工智能”,其中就包括大模型。第二类目前已应用得非常普遍,我称之为“规划式人工智能”。它最典型的例子就是外卖、快递配送规划等。仔细想想,外卖场景设计其实极为复杂:短时间内有大量订单、众多商家与骑手,要完成订单分配和骑手任务规划。若靠人工几乎无法实现,而借助人工智能就能快速完成分配工作。
第三大类是“分析式人工智能”,更通用的说法是“科学智能”(AI for Science)。各个学科在研究中引入人工智能技术,不仅包括大模型,更多是深度学习或其他人工智能技术,以此发现科学数据中复杂的模式。
第四大类是“智能装备”,涵盖智能机器人,以及一些形态上虽非机器人但应用了机器人技术的设备。以工业领域为例,除了传统工业机器人,不少设备因配备传感器而新增了感知功能,使其能根据实际情况变化做出决策,无人机就是典型代表。这类智能装备在工业、农业、交通运输等多个领域都有应用场景。
人工智能至少可分为这四大类。其中,大模型吸引了大部分的注意力,但当下其他三类实际应用效果可能更好。
Q:您觉得在大模型领域,下一个“锚点”(关键突破点)是什么?
A:
我认为在于逻辑增强。当前大模型虽具备极强的能力,但其缺陷也十分明显,在诸多应用场景中,尤其是垂直领域,这些缺陷会成为实质性的障碍。为消除这一障碍,我们需要对大模型进行逻辑增强,即通过逻辑手段,让大模型的输出达到高可信度。
袁岚峰
《锚点》科学对谈人
-本文刊载于《世界科学》杂志2025年第9期“锚点”专栏-
来源:世界科学