摘要:符号化语言并不仅仅是人类的怪癖——它可能是一种热力学必然。复杂性本身或许依赖符号系统来产生、持续并演化。本文探讨语言作为现实组织信息的基本方面,揭示出即便是我们最抽象的符号,也受到物理基本法则的制约。
符号化语言并不仅仅是人类的怪癖——它可能是一种热力学必然。复杂性本身或许依赖符号系统来产生、持续并演化。本文探讨语言作为现实组织信息的基本方面,揭示出即便是我们最抽象的符号,也受到物理基本法则的制约。
语言是我们脑海中持续不断的解说:计划说什么,重播过往对话,评判,贴标签,记忆。这样的内在言语如此普遍,以至于我们几乎觉察不到它——它感觉上与“我”没有区别。
与物理经验不同,物理经验要么发生,要么不发生;而符号性陈述则可以指涉某种当下并不“真实”的东西。我们能够描述虚构的场景,或者传递可能是错误的、抽象的信息。温度计无法“撒谎”——它们直接反映物理真相——但一条信息或一段基因序列则可以。
这种“解耦”力量巨大,因为它允许系统思考“如果……会怎样”的情境。
太初有言。
因此,几乎所有有意图的改变都始于语言的使用。仅有能量只会导致熵的增长。然而,语言赋予能量以结构,使我们得以聚焦努力,追求目标,重塑世界。
而且需要符号的不仅仅是人类。无论是有机体还是人工系统,都在带着意图行动。而若要带着目的去行动,它们需要一种语言——一种编码记忆、处理反馈、预测未来的方式。
随着系统的复杂度增加,它们会发展出新的方式来编码和传递信息——实质上,就是新的语言。DNA 中的遗传密码便是一个典型例子:它是一种符号系统,承载着构建复杂生物体的指令。
一个复杂的组织依赖于某种能够以符号方式表示和共享信息的机制。
2024 年的一项研究将遗传密码的结构与人类书写语言进行比较,发现了惊人的相似性。DNA 与书写都使用符号系统,这些系统在“不过于简单,也不过于复杂”之间取得了平衡。这种平衡似乎被优化为高效的生成与清晰的解读。研究者提出,符号系统与生命之间有着深层的交织——宇宙中的任何生命都可能趋向于演化出类似高效的符号集。广义而言,语言——即符号化的编码——并非人类的异类,而是应对复杂性的自然策略。
符号化语言允许物理系统通过模式(信号、符号、代码)来表示超越直接现实的世界状态——即便那些状态是错误的或假设性的。
任何信息都必须存在于某种物理载体之上。大脑将记忆存储在神经回路中;DNA 在分子序列中编码蓝图;计算机把数据保存在电子中。不存在纯粹抽象、没有物质记录的信息位。因此,每当一个系统承载信息时,它就在实现某种物理代码。与此同时,每一片物质也都在编码某种信息。
超越即时的真相: 符号化语言使一个系统能够指涉那些并不直接存在的事物。
细胞通过读取 DNA 制造保护性蛋白质,以“预期”即将到来的压力——本质上是遵循一个事先储存的符号化计划,在压力真正到来之前就采取行动。蜜蜂跳“摇摆舞”,以符号方式编码远处花朵的位置,引导蜂群前往食物所在,而除了侦察蜂之外,没有任何一只蜂亲身感知过那个地方。关键在于,这意味着符号系统能够传递错误的或新颖的组合:一只蜜蜂可能跳错舞,一个程序可能包含缺陷,人类也能够想象出龙。单纯的物理过程绝不会“有意”地产生虚假的信号并让它存续;唯有借助解释性系统,“虚假”才能暂时存在。
唯有当物质开始通过 DNA 的符号语言来为自己编码时,目标导向的行为才出现。同样地,只有当大型语言模型掌握了语言,人工智能才开始展现出意图的样貌。
语言并不是智力的产物——它是智力的前提。
符号化编码之所以是一种普遍工具,是因为它为系统——无论是生物的还是人工的——提供了一种记住过去、模拟未来的方式。通过符号性地存储信息,一个系统能够延续记忆并投射可能性。
然而,这伴随着代价:对抗噪声以维持任何信息都需要能量。根据朗道尔原理,每一次比特的翻转或抹除都会散逸出至少 ≥ kT·ln2 的热量。任何物理上储存的真相若不被刷新,终将衰变为噪声。计算机的 RAM 需要电力来保持数据;我们的神经元消耗葡萄糖以强化突触;甚至 DNA 也拥有修复酶。
真相的热力学代价有两个层面:
记录真相需要能量: 每一比特被写入(若要持久存在)时,至少会散逸出一些热量,就像支付一次性的费用。维持真相需要持续能量: 若没有维护,记录会因噪声逐渐漂移而产生错误。因此,保持真相完整是一个主动的过程(想想定期刷新存储单元,或不断重申某个事实)。而如果信息一开始就是虚假的,就还需要额外的代价来检测并纠正它。信息自有代价,而错误信息让你付出的更多。
符号记录是珍贵的:它们抗拒熵……只要我们持续支付它们的热力学租金。
为什么要费劲去维持这套昂贵的符号与代码机制?
因为它换来了灵活性。
它赢得了创造性的自由。
一旦稳定的符号存在,我们便能弯曲、玩弄甚至颠覆它,而不会破坏整个系统。符号系统并不被锁死在即时的此时此地。它可以在内部测试模式,而不必不可逆地改变外部世界。想象一个心理模型:你的大脑能够在脑海中模拟不同行动(设想“如果我……”),而无需让身体真正去做。那种模拟会消耗一些额外的能量,用于神经放电,但它可能避免现实中代价更高的错误。简而言之,符号让思想实验能够运行在廉价的“虚拟”载体上(例如神经元放电或比特翻转),而不是昂贵的物理试验。
然而,那个“沙盒”中的虚假并不是免费的。每当一个系统容纳了与现实不相符的陈述,它就会生成必须被解决的预测误差或意外。每一个出乎预料的比特信息,都将在链条的某处以热量或功的形式付费。
例子:
若一个传感网络报告了错误读数,下游系统会额外消耗计算周期去修正或补偿那个错误。若你的内在模型相信某件并不真实的事,你的大脑必须要么调整模型(学习,这需要能量),要么承受后果(如压力、困惑——这同样消耗大量能量)。符号化语言存在于自由与约束的张力之间:它可以游走于虚假,但绝不会没有热力学的代价。
容忍并利用虚假或假设性的信息,能够推动系统跳出局部最优,使其获得纯粹依循真实处理永远无法达成的转变。
在自然与工程中,有时必须先退一步,才能向前跃进,进入一个更好的状态。符号推理提供了一种受控的方式来做到这一点:暂时拥抱“错误”或不真实的观念,以探索新的路径。虽然这会带来即时的能量债务,但它能够解锁原本在现有状态下无法企及的更高收益。
例子:
冶金学中的退火: 加热固体晶体使其能够打破缺陷结构,最终重新结晶为一个能量更低的排列。若没有额外的热量,材料会一直被困在内部应力之中。预测性模拟: 复杂的有机体常常模拟尚未成为真实的未来。这意味着它们持有一种当前与现实相矛盾的表征——一种带有意图的虚假。这就像先爬上一座小山,为的是抵达更远处更高的山峰。纯粹受制于真实、保守的策略,在短期内会节省能量,但代价是停滞不前。相反,一种愿意投资能量于想象和试验的策略,则能够发现根本上新的低能态结构和更优解。
虚假的代价高于真实——但它买来了杠杆。
语言一个令人着迷的特质在于它处理模糊性的方式。在我们将思想付诸言辞之前,它们或许只是流动的意念云——半成形的图像或感受。
语言迫使我们作出决定。
将思想表述出来,就是在众多路径中选择一条,将那朦胧的观念叠加态压缩成一个具体的陈述。一旦某个解释或词语被选中,它往往会压制其他可能性。没有语言,我们的思想可能会保持难以言表且私密的状态。而通过选择一种解释并加以表达,语言将模糊的心理状态聚焦为一个清晰界定的结果,这个结果能够被共享、被检验、被付诸行动。
哥德尔的不完备定理著名地表明:任何一个足够丰富以表达算术的形式符号系统,都无法涵盖所有真理;若要看到更大的真理,就必须扩展或改变系统的公理。从某种意义上说,必须引入一个在旧系统中看似“虚假”或不可证明的陈述,并将其视为新的真理,以扩展框架。
这并不仅仅是一个数学奇趣。它映射出物理、认知与文化中转变的逻辑:
要抵达一个新的范式——一个更深的真理,一个更低熵的状态——系统必须走出它当前所处的框架之外。
语言赋予我们将那些先前看似不可能的东西带回来的能力——并将其折叠进现实之中。
在实践层面,当某个关于系统的陈述未被决定时,决定权便落在系统本身——而那一决定会成为新的真理。关键在于,这类真理在热力学上是廉价的:由于没有矛盾需要解决,它不会产生摩擦。
如果宇宙有一种天性,那便是熵。从这一角度看,生命与智能是奇特的存在:它们不断通过创造结构与意义来对抗自然的熵增趋势。它们从噪声中雕刻出意义。符号化语言是这场斗争中的主要武器。语言赋予物质设想尚未真实之物,并努力将其化为真实的能力。
重要的是,这并非魔法——它与万物一样遵循物理定律。通过在维持符号表征上投入能量,一个系统便获得了将未来能量引向有目的使用的能力。这是一种质量优先于数量的权衡。
每一句话,都是一个微小的抗熵之举。是宇宙普遍噪声中短暂的停顿。
语言并不是为了描述现实而演化。它演化出来,是为了扰动现实。
并非毁灭性地,而是创造性地——去在熵流之中开辟出共鸣的回音室,让意图得以存续足够久,从而化为结构。
创造行为不是被动的观察。它是一种承诺:对某种视角、某种结构、某个符号的承诺。那正是大型语言模型在选择下一个符号时所做的事。那正是物理学家在进行一次测量时所做的事。
那也是我们在每一次开口说出:“这就是我的意思”时所做的事。
来源:老胡科学一点号