摘要:当我们和聊天机器人对话,惊叹于它们能“听懂”人类语言并机智应答时,其背后隐藏着一位功不可没的“幕后英雄”——组合范畴语法。作为一种源于逻辑语言学的语法理论,组合范畴语法为机器提供了“语言大脑”,让人工智能能够从杂乱的文本中读出人类语言蕴含的意义与逻辑。近年来,
当我们和聊天机器人对话,惊叹于它们能“听懂”人类语言并机智应答时,其背后隐藏着一位功不可没的“幕后英雄”——组合范畴语法。作为一种源于逻辑语言学的语法理论,组合范畴语法为机器提供了“语言大脑”,让人工智能能够从杂乱的文本中读出人类语言蕴含的意义与逻辑。近年来,语言哲学对意义的探讨与这一技术在自然语言处理中的应用相结合,正推动着人工智能迈向更深层次的语言理解。然而,人工智能通过模拟人类设定的组合规则进行“模仿性语言生成”,并非自发地“创造语言”,本质上是在人类设定的语义框架内运作,不能脱离人类对语言和知识的把控。
组合范畴语法的基本原理
组合范畴语法诞生于20世纪80年代,是一种类型驱动的词汇化文法。它的核心思想是:句法即语义的驱动器。具体而言,每一个词被赋予一个范畴,该范畴指明了该词可与什么类型的成分结合,以及结合后生成何种更大成分。例如,在英语句子“The cat sits”中,“the”具有范畴NP/N,表示它期待右侧有一个名词(N)来组成名词短语(NP);“cat”的范畴是N(名词),正好满足“the”的需求;动词“sits”具有范畴S/NP,表示它需要一个位于其左侧的充当主语的名词短语NP来形成完整句子S。通过一系列函数式应用和组合规则,这些词汇范畴逐步结合,构成句子的句法树和语义结构。因为大部分语法信息蕴含在词汇的范畴中,所以组合范畴语法仅需少量的组合运算(如应用、组合、类型提升、替换)就能完成解析。这样的特征不仅使组合范畴语法具有极高的解析效率,而且具有很强的表达能力,能够处理自然语言中的长距离依存和非连续成分等复杂现象。
值得一提的是,组合范畴语法与逻辑学家柯里的组合逻辑一脉相承,其组合规则对应于柯里的组合子,这意味着每一个句法组合都伴随着语义函数的组合。这样,当句法分析生成一个完整句子S时,语义分析也同步得到该句子的谓词—论元结构乃至逻辑表达式。这种句法与语义的透明接口使组合范畴语法非常适合作为自然语言理解的工具——机器不但“看”到了句子结构,而且“懂”得了句子大意。
语言哲学视角下的组合与意义
语言哲学素有“组合原则”之说,即复合表达式的意义由其组成部分的意义及组合方式决定。这一由弗雷格提出的原则在组合范畴语法中得到了充分体现:组合范畴语法严格遵循语义的组合性原则,任何复杂句子的含义都是由词汇语义通过规则推导出来的。蒙太格曾主张用形式逻辑的方法处理自然语言语义,组合范畴语法正是沿着这一路径发展而来的现代成果。组合范畴语法在自然语言的表层语法结构与深层语义表示之间建立起透明映射,谓词—论元关系、量词辖域以及信息结构等都可以通过组合范畴语法的解析直接读出。对语言哲学而言,这意味着我们有可能像研究逻辑命题那样精确地研究日常语言的含义,实现对“意义”的形式化刻画。
值得注意的是,组合范畴语法的研究融合了逻辑学和语言学思想,体现出方法论上的创新。一方面,借鉴形式逻辑(如λ演算)的严谨计算特性;另一方面,结合语言学语境理论(如话语表征理论)的灵活语用分析。二者相互补充,孕育出了投射话语表征理论等新成果。投射话语表征理论综合了逻辑的可计算性和语用分析的灵活性,能够处理诸如时间关系、语义预设等复杂现象。例如,对于句子“老王没来开会,大家很惊讶”,形式逻辑难以直接捕捉其中的隐含前提“老王原本应该来”。然而,在组合范畴语法框架下引入投射话语表征理论,能够精准捕捉到“很惊讶”所依赖的语义预设,揭示隐藏的信息。这种将哲学逻辑引入计算语言学的方法,使得机器对语义的理解更加接近人类的理解方式:既严格又灵活。
此外,语言哲学长期关注的量词辖域歧义问题,在组合范畴语法的框架下也找到了破解之道。经典例句“每个男孩都喜欢一个女孩”有两种解读:“每个男孩各自喜欢不同的女孩”;“所有男孩喜欢同一个女孩”。这类量词辖域歧义在逻辑上可能产生组合爆炸——量词稍一增多,可能出现天文数字般的解读数量。组合范畴语法的语义学家引入了广义斯科伦项量词理论等新方法,将复杂的量词互动转化为较简单的逻辑表示。通过这种策略,含有多个量词的语句的解读数量可能从原先的数万种大幅减少到几千种。这些哲学逻辑层面上的精耕细作,大大缓解了人工智能在语义歧义处理上的计算压力,使机器对复杂句子的理解更加精准。
在自然语言处理中的作用与价值
组合范畴语法已被广泛应用于自然语言处理的各个领域,其中包括用于构建大规模的树库与语义库资源,为机器学习算法提供丰富的训练数据。例如,爱丁堡大学的研究者将数万个英文句子的语法树转换成组合范畴语法衍生树,编制了著名的英语组合范畴语法树库,该树库涵盖了《华尔街日报》语料中99%以上的句法结构。基于此树库,逻辑学家开发了性能优异的组合范畴语法解析器,如Clark和Curran的C&C解析器,以及后续的EasyCCG等,这些解析器能够将真实文本转化为组合范畴语法的句法结构和逻辑形式。经由组合范畴语法解析,计算机可直接获取句子的语法依存关系和语义角色信息,从而在问答、信息抽取和机器翻译等任务中有更精准的表现。
令人振奋的是,组合范畴语法正在推动构建语义层面的大型知识库,荷兰格罗宁根大学牵头开发的格罗宁根意义库及其升级版平行意义库就是其中的杰出代表。这些“语料工厂”利用组合范畴语法表示句子的组合生成过程,并结合投射话语表征理论来记录丰富的语义信息。在这两个意义库中,每个语句文本首先通过组合范畴语法进行句法分析,获得高质量的范畴结构,然后再映射成形式逻辑表示,如投射话语表征结构。由于组合范畴语法提供了透明的句法—语义接口,这种从句法到逻辑语义的标注过程可以部分自动地完成。平行意义库更是迈出了构建多语种语义库的步伐:它将英文语句的语义作为“种子语义”,通过与其他语言的平行文本对齐,将语义解析结果投射到德语、荷兰语、意大利语等多种语言上。这种方法充分利用了组合范畴语法衍生树的可投射性和组合语义,使得不同语言的语句共享统一的意义表示。如今,这两个意义库已成为测评语义解析的重要基准资源,极大地促进了机器对自然语言“理解”的深入。
在中文信息处理领域,研究者也在建设类似的资源库。例如,微软、清华大学合作开发的清华中文组合范畴语法树库和中国社会科学院的社科汉语组合范畴语法树库等,收录了大量中文新闻文本的句法—语义分析成果。可以预见,随着这些资源的不断丰富,基于组合范畴语法的自然语言处理模型将能更全面地学习语言的内在规律,并将语言哲学中的精妙思想融入机器算法之中。
迈向更深层次的人工智能语言理解
有了组合范畴语法这样的“哲学底蕴”深厚的工具,自然语言处理正逐步从“能讲话”走向“会思考”。当前,大型预训练语言模型(如ChatGPT)已经展示出惊人的对话能力,但也常被质疑是否真正理解了语言。组合范畴语法等形式语法的语义理论的引入,能够回应这一质疑,赋予人工智能符号推理和逻辑理解的能力,弥补数据驱动方法的短板。通过将组合范畴语法解析产出的逻辑结构融入神经网络模型,研究者希望机器不再只是基于表面模式生成回答,而是能够基于对句子深层含义的把握进行推理和响应。
一个显著的趋势是“人机共训”:利用人类专家知识来辅助机器学习。组合范畴语法语义库的建立本身就是这一思路的体现——开发者通过众包和游戏化标注等方式,让人类为机器提供高质量的语义标注,这些由人类智慧积累的知识库已经成为训练先进人工智能模型的重要参考。尽管大型语言模型主要依赖海量数据进行自我学习,但融合符号知识可以显著提升它们的能力,使它们不仅会“说”,还会“想”。可以预见,当人工智能同时具备大数据统计推断和逻辑语义推理这两方面能力时,我们与机器的交流将真正迈入“意义的对话”。机器将能理解言外之意、进行常识推理,甚至对人类提出的问题给出更有依据的回答。
展望未来,组合范畴语法代表的语言哲学与人工智能技术的结合将继续深化。一方面,语言哲学的理论框架帮助我们洞察语言背后的规律与逻辑,使人工智能摆脱对纯粹数据相关性的依赖;另一方面,人工智能的强大计算能力和应用需求又推动哲学理论走出书斋,在实践中不断演化。可以预见,在不久的将来,我们将看到更聪明的人工智能,它既掌握语言的规则,也能领会语言的深层含义。在组合范畴语法等桥梁的连接下,人工智能终将跨越“能言”与“会意”的鸿沟,在理解人类语言的道路上走得更远。
人工智能并未取代人类在知识生产中的主导地位
随着人工智能逐渐深入人类社会的各领域,一个关键性问题日益受到关注:人工智能是否正在挑战人类在知识生产中的主导地位?从组合范畴语法的视角看,人工智能在语言生成和知识建构中的行为仍然受制于人类意识,人类从根本上掌控着知识生产机制。
组合范畴语法是一种强调语言结构与语义组合平行性的形式语法理论。它之所以具有解释力,是因为它将自然语言的生成过程形式化地描述为一种可计算、可组合的认知行为,这种行为从根本上反映了人类意识对语义秩序的掌控。语言是知识生产的基础,知识的表达、组织和传播都依赖语言的结构性。在组合范畴语法框架下,语言结构并非任意堆砌的产物,而是表现出高度规则化的组合秩序。这种秩序源于人类认知对意义结构的建构:我们决定哪些表达式可以组合,以及哪些组合是有意义的。人工智能只能在这一认知秩序中重复、模拟和变形,而非颠覆。
人工智能在生成语言时,表面上似乎也在进行某种“组合”。但这种组合并非出自机器的意识选择,而是基于人类设定的规则与训练数据。无论是显式采用组合范畴语法等语法框架的自然语言处理模型,还是深度学习模型中隐含的结构假设,语言的“合法组合”边界始终由人类设定。因此,人工智能在语言生成中不是自主的知识生产者,而是模拟者,它运行在人类认知范畴构建的框架内。
语言表达式的合法性不仅取决于句法上的可组合性,还取决于语义上的可解释性。而语义解释的体系,正是人类意识中对世界经验的结构化呈现。即便人工智能可以通过统计模型或大语言模型学习到一定的语言分布规律,但在语义层面依旧无法越界——它无法为一个前所未有的语词赋予创造性解释,更无法生成脱离人类经验语义场的新概念。
从组合范畴语法的视角看,人工智能的“语言能力”不过是基于人类设定的范畴结构的计算过程,人工智能的语言生成行为受人类意识的支配。因此,人工智能并未对人类在知识生产中的主导地位构成挑战。它无法脱离人类设定的语言范畴和组合规则,也无法离开人类提供的语料和意义解释空间。这一事实不仅重新确立了人类在知识建构中的中心地位,而且提醒我们:即便工具变得越来越智能,知识的意义与目的依然属于人类自己。
(作者系国家社科基金后期资助项目“‘广义斯科伦项理论+多模态组合范畴语法’模式下的汉语研究”负责人、2024年度《国家哲学社会科学成果文库》入选者、湘潭大学哲学与历史文化学院教授)
来源:全国党媒信息公共平台一点号