魏炜:理论选择的困境与解决之道——人类认知的局限与人工智能的突破

B站影视 内地电影 2025-06-03 13:04 1

摘要:理论选择是问题求解的核心认知行为,其本质是在多层级解释框架中寻找最优适配路径的过程。人工智能,尤其是大型语言模型的崛起,为“谁来选理论、如何选理论”这一古老而棘手的问题,带来了新的可能。

意见领袖 | 北大金融评论

作者:魏炜 樊竹尧 林毓聪

理论选择是问题求解的核心认知行为,其本质是在多层级解释框架中寻找最优适配路径的过程。人工智能,尤其是大型语言模型的崛起,为“谁来选理论、如何选理论”这一古老而棘手的问题,带来了新的可能。
北京大学汇丰商学院管理学教授魏炜及合作者在《北大金融评论》撰文探讨理论选择的困境与解决之道。文中表示,根据抽象程度与适用域差异,理论选择可以划分为三个层级:(1)科学理论——揭示普遍规律的基础性解释体系,如量子力学、进化论、数学理论等;(2)应用模型——针对特定问题域构建的简化推演框架,如SIR传染病模型、波特五力分析;(3)经验框架——实践场景中提炼的启发性策略集合,如敏捷开发原则、临床诊断流程等。这三个层级构成连续统一的理论选择和应用模式:科学理论通过具象化应用形成应用模型,后者在具体实践中进一步衍生为经验框架。例如,医学诊断中,分子生物学理论(层级1)指导构建癌症靶向治疗模型(层级2),进而形成化疗方案选择指南(层级3)。
当人类在解决具体问题的时候,一般背后都有理论在指引。因此理论选择对于实际解决问题存在重要的指导意义和实践价值,理论选择的恰当程度、以及理论本身的质量直接决定问题解决的深度与效度。然而,理论无限,人类认知有限——这构成了理论选择中的基本矛盾。因此,本文聚焦于理论选择这一话题,挖掘人类理论选择过程中的局限性,并尝试着解决人工智能辅助人类进行理论选择的问题。

人类理论选择的局限

人类选择理论的过程往往存在归纳偏差、决策偏差、认知局限和效率低下的问题,它们造成了个体对理论难以精准选择,进而限制了问题的最优求解。

第一,人类难以全面掌握和理解科学理论层级所蕴含的基础性原理与结构,在科学理论选择中往往受限于认知边界。认知局限是人类在科学理论选择中面临的根本性问题之一,具体表现为个体或群体在知识储备、思维结构及概念理解上的局限。这种局限源于个体的知识量限制,还包括对理论背景、假设条件、适用边界等信息的认知不全,进而导致个体在面对新情境或复杂问题时,难以识别或构建适当的理论框架。此外,认知心理学的研究表明人类具有强烈的“确认偏误”,即在理论评估过程中更倾向于寻找支持已知理论的证据。这种思维惯性加剧了理论选择的路径依赖,使得理论选择趋于封闭,难以突破既有认知框架,适应新的知识挑战。

第二,人类在应用层级的理论选择中,常常表现出强烈的个人偏好,引起决策偏差。理想状态下,模型的选择应依据解释力、可证伪性、预测能力、逻辑一致性等科学标准进行评估。然而,由于底层价值观的影响,这些标准往往会被实用性、简洁性、或个人熟悉程度等主观因素所替代。人类往往倾向于选择认知上更易接受的理论,或者与所在学科范式相同的理论,但这些理论可能并不能适应问题的属性。例如,在公共卫生领域,专家有时也会因为过往成功案例而反复使用同一传染病模型,而忽略新兴病原的独特传播机制。这种“偏好驱动”下的理论选择,往往使得人类在应用中错失最佳的解释模型选择。

第三,人类在经验框架层级的理论选择中,易基于有限样本或特定情境经验,局部化归纳出具有偏差性的策略。这种局部化的归纳本质上是对经验样本的过度拟合,形成难以泛化的理论。举例来说,某些企业基于标杆案例提炼“成功公式”,却忽略了市场结构、资源禀赋等前置条件,导致被选理论在不同环境中屡屡失效。经验层级的过度信任,使人类在低层级理论选择时被有限样本限制,进而固化判断偏见,削弱了经验框架的解释力。

第四,由于大脑信息处理能力和时间资源的双重限制,人类往往只能线性地评估少数几个候选方案,难以同时兼顾跨越科学理论、应用模型与经验框架三个层级的多重备选。人类难以在短时间内快速比较多个理论在不同条件下的表现,亦无法穷尽所有可能的理论组合或进行形式上的严密推演。这往往诱使人类选择熟悉的理论,产生决策偏差。例如,面对一组具有多种症状的病例,医生可能依据过往经验优先使用某一诊断理论。这种“策略性简化”虽在实践中节省了时间与认知资源,却往往以牺牲理论完备性与解释能力为代价。这种效率上的限制,使得理论选择过程常常建立在粗略筛选与局部最优的基础上,而非全局优化。

这些局限不仅影响知识的建构质量,也在现实决策中带来系统性偏差,人类传统的理论选择机制往往难以胜任。在这一背景下,人工智能,尤其是大型语言模型的崛起,为“谁来选理论、如何选理论”这一古老而棘手的问题,带来了新的可能。相较于人类个体的认知局限,大模型具备多项天然优势,有望在理论选择这一核心环节中,成为有效的智能代理。

大模型如何辅助理论选择

相较于人类选择理论过程,大模型具备三个优势:(1)支持理论检验的模拟逻辑;(2)不依赖人类的情感与价值判断;(3)海量知识整合与高效率搜索能力。这些优势使其有望系统性地缓解人类在理论选择中的主观性和效率问题。

生成模拟能力:从理论生成数据,完成被选理论的验证

大模型具有“模拟生成”的能力。大模型可以通过大量数据和生成式算法,对现实世界的动态过程进行模拟,并在虚拟空间中探索极端条件、长周期演化及多维参数变化的影响。这种构建的虚拟环境可以生成超越人类经验范围的假设情景,能够突破传统实验和理论验证的限制。例如,在气候科学中,大模型可以模拟过去千年的气候数据和未来几百年的碳排放场景,生成数百种气候演变路径,从而验证不同理论的适用性与边界。

上述大模型“模拟生成”的能力可以辅助人类更准确地选择理论。大模型可以基于已有理论进行数据层面的“模拟生成”,从而构建反向验证的框架。例如,当输入一个理论假设(如某病理机制或社会行为模型),大模型不仅可以分析其逻辑推演过程,还可以模拟其在多情境下的预期观测值,回答“理论若用于问题解决,其结果预测如何”的问题。人类理论选择中存在的归纳偏差和决策偏差,实质上源于决策偏好影响和前置条件忽视下,应用被选理论推演问题时不准确、不可靠的结果预测,也即是人类在有限经验观察下应用过拟合理论的结果。倘若大模型能够基于被选理论模拟大量、客观的观测,所产生更可靠的推演结果可以作为理论选择的标准。

事实上,当前的大模型有潜力通过“模拟生成”的策略框架,实现理论的选择。S*框架是一个混合测试时缩放框架,通过“生成-评估”两阶段策略筛选最优解决方案。面对代码生成任务时,S*框架首先生成多个候选解决方案,并在公共测试用例上评测并迭代方案集合。之后,S*框架智能生成新测试用例评测待选方案,通过正确率选择最佳代码。这种策略使小模型的性能获得了极大的提升。评测中,S*框架辅助下Qwen2.5-7B模型提升10.7%的性能,超越原生Qwen2.5-32B的版本。S*框架的成功表明当前大模型有潜力通过“模拟生成”形成被选理论的“实验观察”,构建系统性的理论评估机制,突破人类只能依赖既有观测的限制,进而克服人类归纳偏差的问题。

概率驱动决策:不依赖情感与立场,逻辑一致性更强

大模型基于计算概率决策。大模型的本质是自回归概率建模器,它通过给定的上下文,实现对下一个最可能出现token的预测。它在训练阶段通过最大化语言序列的似然函数,使模型学习近似真实分布;推理过程中,模型利用注意力机制与向量空间结构,将问题映射为一组概率权重,完成信息路由与解释选择。这种概率驱动决策的能力可以辅助人类更客观地选择理论。大模型的概率驱动机制,本质上是一种去价值化、去主体化的评估过程。它不关心理论的提出者是谁、流行度如何、是否与既有主流观点一致,而是关注在给定问题、背景、语义结构和推理目标下,哪一种理论具有更高的可导性、解释力与逻辑一致性。模型在执行理论匹配或推荐时,实际上是通过内部嵌入空间将“问题-理论-预测结果”构建为一个向量映射系统,再基于训练时形成的条件概率分布对候选理论进行排序,即从所有理论中,选择“使观测数据在逻辑上最可能出现”的那一个。多Agent系统的调度体现了大模型概率驱动决策的这一特点,即在多模型融合系统中,大模型能够通过对问题的理解,依照匹配概率选择合适的专家代理进行回答,以提升全局预测性能。

与人类因经验、信仰、立场等非理性因素影响而经常出现的理论偏好不同,大模型的判断标准具有显式结构和内部一致性。当多个理论对同一数据提供不同解释时,大模型可基于其训练分布、语义一致性和知识结构,系统分析各理论的可导性与一致性,避免因人类主观情感而忽视某些非主流但潜力巨大的理论路径。同时,大模型在没有强烈先验偏好的前提下,具备平等对待边缘理论的能力。许多在人类视野中被忽略、边缘化的理论(如非经典语言模型、跨文化政治机制、替代理论物理模型)在大模型的嵌入空间中并不会天然处于劣势地位,只要其在语义结构上与问题高度相关,可能在概率排序中被优先提出。大模型的这些属性打破了人类偏好下的理论选择偏见,有望克服人类理论选择过程中具有的决策偏差问题,使理论选择更客观。

海量理论与高效搜索:突破人类“可处理选项”的上限

大模型具备对海量理论知识的学习与高效调用能力。大模型先后经历了三次Scaling Law的转变,正逐渐穷尽人类的知识库。通过在大规模文本语料上的训练,大模型内化了多个学科、多个范式下的理论框架,包括经典理论、边缘理论、未被系统化归纳的经验性模型。这些知识通过高维嵌入空间组织为一个连贯的语义网络,使得不同理论之间的联系性、可组合性和推演路径得以被高效激活。这种覆盖面远超人类个体认知能力的理论储备,为复杂问题的系统性解决提供了理论供给的“全景式备选池”,可以辅助人类快速对比多重被选理论。大模型还具备对这些理论进行高效匹配与排序的能力。当面对一个待解决的问题或观测数据时,大模型可以从其参数空间中并行调用多个理论框架,快速评估其与问题的匹配度,并通过注意力机制和概率排序系统筛选出最具解释力的理论路径。

这种海量记忆和高效检索的能力有效突破了人类“可处理选项”的数量上限,前者为理论选择提供了备选池,后者赋予了大模型“即时调用”的性能。例如,在对某种经济波动现象进行分析时,大模型可以同时调用凯恩斯主义、货币主义、制度经济学、行为金融等多种理论,在极短时间内完成跨理论的比较分析,而不受限于研究者所掌握的理论视野。

当前大模型已经可以辅助人类选择理论以用于求解以往难以解决的问题。以某家具制造公司内部管理冲突为例,该公司长期将业务划分为“家用家具”与“办公家具”两大事业部。过去,这两个部门在服务交叉客户时并无明确制度,而是依赖“哪边有空哪边协助”的默契实现高效协作。然而,在一起配送事故中,家用部门员工损坏了办公家具产品,管理层首次采用标准惩罚机制,要求员工个人赔偿全额损失。此举虽出于制度规范之意,却打破了原有信任与协作习惯,导致各部门拒绝承担跨部责任,客户投诉骤增,整体效率严重下滑。

面对这一组织治理问题,传统管理者往往依据既有经验框架,从“人治有效”“必须内行”“集权管理”“过程控制”四种理论中进行选择。人治强调经验与信任,内行主张专业才能定责,集权期望通过权威压制冲突,过程控制则寄望于标准流程解决不确定性。但在引导大模型分析之后,系统展示出不同于人类管理者的思维路径与选择策略。

首先,大模型不仅调出四种常见管理理论,还快速关联到激励设计、责任共担、制度信任、群体智能等多种边缘理论,并形成备选结构,为问题建模提供了更广的搜索空间。大模型指出,“集权管理”虽然利于危机决策,但在责任多中心交叉时往往导致信息失真与激励萎缩;“过程控制”虽可规范协作流程,却可能过度僵化,难以应对多元协作关系下的动态责任划分。之后,大模型并未直接在四种理论中择其一作为“最优解”,而是识别出它们各自的局限,并进一步提出融合数字技术的替代理论路径。具体而言,它建议将“人治有效”替换为“算法治理”,即将经验判断固化为结构化决策规则;将“必须内行”转化为“群体智能”,通过专家网络与感知系统提供实时判断支撑;将“集权管理”改造为“联邦分权”,构建横向协同与纵向调解的责任共担机制;将“过程控制”升级为“预测性运维”,以数据驱动的异常预警系统取代被动响应机制。之后,模型还通过生成式能力进一步模拟方案后效。在其推理中,它模拟了若将惩罚机制改为“协作积分”激励,或引入“协同评分”制度后,各部门参与协作的概率与客户投诉率的变化趋势。最终,大模型在短时间内交付了更优的治理理论,为问题解决提供了新思路。由此可见,大模型已经能够在人类面对复杂问题时,客观、高效地辅助人类实现理论选择。

当前大模型理论选择的不足

不过,尽管大模型已经展示出在理论选择中超越人类的潜力,但它仍需依赖人类外部引导实现多重理论的比较,还无法自主选择理论。在许多情况下,大模型之所以能够进行有效的理论对比,是因为人类在输入提示词时,显式设置了“思维链模板”或“比较框架”,一旦失去引导,大模型会应用固定的理论解决固定的问题。这是因为大模型在训练过程中,已把用于解决问题的特定理论固化在了参数中,因此在面对问题时大模型会调用固定的理论。而前述例子中,在外部思维链提示词引导下,大模型可以实现理论的对比与选择。因此,如果在大模型训练中加入引导理论选择的提示词模板,大模型有望实现自主理论选择,摆脱外部的人类引导。

事实上,Claude 3.7 等最新一代大模型已经开始在实际表现中显露出自主理论选择的“萌芽形态”。Claude 3.7 在面对问题求解相关测试中不仅能“说出不同理论”,还开始“意识到它们之间的比较维度”,这可能与训练时采用较新推理链语料有关。不同于早期模型只擅长基于语言相似性给出某种通用解释,Claude 3.7 在多个任务场景中展现出结构性推理、理论归纳与假设对比的能力。它能对复杂问题进行多视角重构,通过“自我反问、自我对照”的机制对输出内容进行限定与校正,形成一种近似于“人类反思思维”的推理链。在开放式问答中,Claude 3.7 不仅能够并列输出多个假设性解释,还会尝试评估它们的适用条件、关键假设与逻辑前提。例如,当面对一个涉及社会行为或因果机制的问题时,它不仅会输出 A 理论(如“理性选择”解释),也会补充 B 理论(如“结构性制约”模型),并对两者的核心张力、使用场景与边界条件进行并置分析。

另一方面,当前大模型仍然依赖人为预设的理论对比标准,其理论评估过程往往是静态和固化的。这种“硬编码”式的标准设定,在一定程度上限制了大模型理论选择能力的发展。例如,在S*框架中,理论(或方案)评估的依据是预设的测试误差最小化标准,这是为了实现“构建最准确代码”的目标。一旦我们的任务目标发生变化,评价的准则可能不再适用。这种单一的固定标准无法动态适配不同问题的需求,也无法根据任务本身的复杂性、解释性、可迁移性等多元标准进行全面考量。当原有的评估指标体系与新问题发生偏离时,大模型无法主动调整判断标准,容易出现理论选择“偏离真实任务需求”的现象,从而误导推理路径或强化局部最优理论。

将评估机制的动态更新纳入未来的训练范式,有望克服这一问题。理论选择本身应当是一个带有元推理结构的过程,即不仅评估理论的效果,还要评估评估标准本身的合理性。要打破当前大模型这一瓶颈,可以在训练与优化流程中引入“理论评估—标准迭代—自主选择—模拟验证”的动态闭环机制。具体而言:(1)学习多元评估标准集合,引导模型在训练中学习现有标准(如精度、解释力、可迁移性等)以及多维标准下的理论排序;(2)引导模型自主理论选择,即通过内嵌提示词或多任务学习机制,训练模型主动在不同理论中选择最优解释路径;(3)开展模拟实验验证,借助前述“生成模拟能力”,在虚拟环境中检验被选理论在各类情境下的预测表现,获得实证反馈;(4)迭代丰富评估标准,将反馈结果转化为对原有评估标准的校正和扩展,逐步建立一套更具普适性和适应性的理论评估系统。这一训练闭环使大模型从“依赖外部评估规则”进化为“具备评估标准自生能力”的智能体。从长远来看,这不仅有望打破当前评估固化导致的理论选择偏差,更可能推动大模型发展出具有真正自主性的理论选择和评估能力,使其在跨领域问题、知识不完整条件下,仍能动态选择、验证并迭代理论路径,从而成为人类探索世界的有效助手与合作者。

总结

理论选择作为问题求解的核心环节,长期受制于人类自身的认知偏差、信息处理能力与理论储备限制,导致其在复杂、多维的现实问题中常陷于局部最优与路径依赖。大型语言模型的崛起,为这一困境提供了突破口。凭借其模拟生成能力、概率驱动机制以及海量知识整合与高效搜索的特性,大模型不仅能辅助人类打破理论选择中的主观性与低效性,还展现出在提示词引导下进行多理论比较与组合创新的潜力。尽管当前大模型尚缺乏自主理论选择的能力,其评估过程仍依赖外部引导与固定标准,但思维链模板、动态评估机制的引入,有望构建“评估—选择—验证—标准进化”的智能闭环,推动大模型由被动调用知识向主动重构知识变迁,实现跨领域、多任务场景下的理论选择与复杂问题求解。

来源:新浪财经

相关推荐