万字追问：鸡娃，还是躺平？大语言模型也有教育困境

摘要：在孩子的成长道路上，家长总是徘徊在两个极端：是该鸡娃式地安排好一切，让孩子每天都在补习班和题海里打转，还是该彻底放养，让他们自由探索，哪怕代价可能是沉迷游戏、天天躺平？

在孩子的成长道路上，家长总是徘徊在两个极端：是该鸡娃式地安排好一切，让孩子每天都在补习班和题海里打转，还是该彻底放养，让他们自由探索，哪怕代价可能是沉迷游戏、天天躺平？

其实大语言模型的“教育”问题也差不多。研究者在训练和使用这些模型时，离不开提示词。这就像一份人生剧本，告诉模型“你是谁？”“你要做什么？”“你能做到哪里？”但问题是，提示词到底应该像家长一样，抓得紧、管得细；还是该放手，让它自己折腾？这就是生成式智能体模型*（Generative Agent-Based Model, GABM）面临的最大困境。

在操作上，GABM本质上是一个由提示（prompt）驱动的信息传导网络，其运行机制依赖于作为元指令的提示，形成一个“提示→组件行为→系统输出”的传导链。

为什么我们要在意这件事？因为GABM并不是冷冰冰的技术实验，而是社会科学研究者的一个新工具。过去，学者们要研究人类行为，要么搞问卷调查，要么做小规模实验，要么用一些抽象的数学模型来推演。成本高，限制多，还经常被批评不够真实。现在，GABM提供了一个虚拟版的社会实验室：研究者能在电脑里创造出一群虚拟居民，给他们身份、记忆和目标，让他们互相交流、合作、冲突，然后观察会出现怎样的社会现象。

听起来是不是很像《模拟人生》？只不过研究者希望从中看到更严肃的问题：比如市场会不会出现价格联盟；一个城市在疫情中会不会爆发恐慌；一个社会会不会形成极化舆论。

▷ 本文编译自Li, Z., Wu, Q. (2025). Let It Go or Control It All? The Dilemma of Prompt Engineering in Generative Agent‐Based Models. System Dynamics Review, 41(3), e70008.

而这恰恰是麻烦的开始。研究者发现，如果在提示词里写得太细，就像逼着虚拟学生每天学习八小时、参加三门补习班，那他们的行为轨迹几乎注定，不会有任何意外。如果写得太模糊，又可能变成放养的孩子，整天无所事事，或者做出一些完全不合逻辑的举动。研究者最想看到的涌现现象，那些由简单规则互动产生的、出乎意料又合乎情理的复杂行为，就这样要么被剧本写死，要么被混乱淹没。

所以，GABM的提示词设计，本质上是一个关于“度”的问题。你 既要给它足够的框架， 让模拟结果不至于乱七八糟， 又要给它足够的空间，让它能长出超出预期的行为 。这也是为什么，Li and Wu (2025) 的论文会强调，提示词既可能是教育手段，也可能是紧箍咒。

为了破除这个困境，我们需要从这些虚拟居民是如何被创造出来开始。

身份（Profile）：

你是谁，决定了你怎么看世界

在生成式智能体模型（GABM）里，“身份”是提示词设计的第一步，也是最关键的一步。它决定了一个虚拟居民的角色和性格，相当于为一场戏挑选演员并写下角色设定。没有身份，智能体就是一张白纸；一旦身份被赋予，它就会带着某种视角去理解世界、做出选择。

举个简单的例子：如果你告诉一个虚拟学生，“你是大学里的一名普通本科生”，他可能每天随机上课、聊天、刷视频，行为带有很大的不确定性。但如果你进一步规定，“你是一名立志考研的学霸，每天至少学习八小时，希望保持年级前5%的排名”，那么他的日常行为轨迹就几乎被锁定：图书馆、课堂、自习室三点一线，很少会有“意料之外”的行动。这就是身份设定的力量。

在学术研究中，身份的作用更为明显。比如 Hua et al.（2023）在模拟国际关系时，把不同国家设定为虚拟智能体，赋予它们“历史背景”“军事能力”“外交政策”等详细身份。这些身份就像国家的性格：如果一个国家被设定成“曾经受过侵略，因此对安全极度敏感”，那么它在模拟中的行为更可能是谨慎、保守甚至强硬的。再比如Park ,et al.（2023）在模拟一个虚拟小镇时，为居民写下了详细的职业、兴趣和人际关系。结果，这些虚拟居民会根据设定的身份开展互动，形成相对稳定的社交网络和行为模式。

身份（Profile）组件在生成式智能体模型（GABM）中确立了模拟智能体的基本身份、内在特征和行为倾向，是其所有行为建立的基础。该组件是所有智能体行为的起点，它决定了智能体如何感知信息、做出决策以及对模拟环境中的刺激做出反应。身份通过提供一个情境背景和个性框架来指导信息的解读与反应的生成，并为其他组件提供基础身份信息，从而引导记忆的形成、决策过程和行为倾向。

从研究者的角度来看，身份设计是一把双刃剑。一方面，详细的身份能让模拟更有现实感，更容易重现我们熟悉的社会现象。例如，如果我们要研究疫情下的防疫政策，就必须设定哪些居民是医生、哪些是小商贩、哪些是老人，否则模拟出来的结果很难映射到现实。另一方面，身份设定过于细致，就可能变成研究者写好的剧本。虚拟居民的一举一动，其实都在身份设定里被暗示甚至写死了。此时，我们看到的并不是社会互动的自然涌现，而是研究者设计的延伸 * 。

这种张力，正是过度控制的典型表现。 过于模糊，模拟会失去方向；过于详细，结果就会缺乏惊喜和复杂性。它和教育里的“鸡娃”与“放养”何其相似：如果一个孩子的身份从小被设定为别人家的学霸，他几乎没有偏离轨道的自由；如果什么设定都没有，孩子可能就会沉迷游戏、虚度光阴。

因此，研究者必须时刻警惕： 我们赋予虚拟居民的身份，究竟是在帮助他们更真实地模拟人类，还是在替他们写好了一出注定的戏？ 这不仅影响模拟结果的可信度，更关乎GABM作为科学方法的严肃性。

研究者通过三种主要方式对身份（Profile）组件进行过度控制，从而可能预先决定模拟结果。（1）明确的角色和属性定义：研究者通过提示词直接为智能体嵌入具体的角色、职业、人际关系或鲜明的个性标记；（2）受控的特质分布和分配：研究者会有意地将特定的个性特质（如大五人格）分配给智能体，并在群体中系统地改变这些特质的分布。例如，精心设计具有“极端整合、好奇、友好和敏感”等特质组合的智能体角色；（3）最后是人口统计、价值体系和信念框架的编码：这涉及根据特定的人口统计数据构建智能体群体，或将预定义的价值体系、世界观或意识形态立场直接嵌入智能体档案中。

记忆（Memory）：

你记得什么，决定了你能成为什么

如果身份回答了“你是谁”，那么记忆决定了“你会不会一以贯之”。一个智能体若没有记忆，就像一条只有三秒注意力的金鱼——转个身就忘了之前发生的事，行为完全缺乏连续性。而一旦有了记忆，它才能在当下的决策中带上过去的烙印，表现得更像一个真实的人。

在生成式智能体模型（GABM）中，记忆被分为两类：短期记忆（short-term memory）和长期记忆（long-term memory）。短期记忆更像是一段对话记录，帮助智能体保持上下文连续性。例如，一个虚拟居民在和朋友聊天时，如果没有短期记忆，他可能一句话前说“我喜欢喝咖啡”，下一句话就问“什么是咖啡？”；有了短期记忆，他才能延续，表现出基本的逻辑一致。长期记忆则更像人生经历的积累，影响着身份和行为的稳定性。比如，“你学过六年奥数”“你曾在疫情中失去亲人”，这样的长期记忆会深刻改变智能体的偏好和行动。

记忆（Memory）通过存储、检索和反思相关信息，使模拟智能体能够维持行为一致性并随时间发展演变。记忆系统通常包括用于处理即时上下文信息（如对话历史）的短期记忆，以及用于存储影响智能体身份和行为的持久性数据（如过往经验）的长期记忆。该组件的操作包括写入新信息、基于相关性（如使用关键词匹配或嵌入向量等技术）检索特定内容，以及通过反思过往经验来提炼见解和抽象概念。

记忆组件通过筛选来自“身份”组件的信息来决定保留内容，为“规划”组件提供决策所需的上下文数据，并在“行动”执行期间作为维持行为一致性的参考，从而与其他组件紧密互动。研究者通过提示（prompt）来设计信息处理的架构，例如规定信息如何被存储和构建、设计带有权重的检索算法以模拟人类的提取机制、直接向智能体提供被框定为“相关记忆”的特定信息，甚至操纵记忆的深度和持久性。

日常类比：考试复习与生活片段

要理解记忆的重要性，我们不妨从生活里找类比。短期记忆，比如你收到的短信验证码，在输入之后就已经抛之脑后。长期记忆则是你童年时的经历，尽管过后不能逐句还原当时的场景，但这些记忆会伴随你一生，直接或间接地影响你之后的决定。虚拟居民也是这样：如果研究者只给他们短期记忆，他们可能只会在当下保持做出某种特定的行为，而缺乏人格上的延续性；而一旦给他们长期记忆，他们就会逐渐表现出性格和习惯。

案例：小镇居民的“记忆档案”

案例：疫情防控模拟

另一个例子来自Williams et al.（2023）的研究。他们在疫情模拟中，让居民根据记忆来调整行为。如果某个居民记得前几天报纸说“20% 的人感染”，那他就可能选择减少外出；如果他的长期记忆里写着“曾经因为轻信谣言买过假药”，那他未来面对防疫信息时就会更加谨慎。这些细节让模拟更接近人类社会的复杂性，也让研究结果更具启发性。

方法论困境：谁来决定你记得什么？

但问题也随之而来：虚拟居民的记忆究竟是谁决定的？在现实生活中，我们无法完全选择自己记得什么，有些片段会被忘掉，有些会深刻留痕。但在GABM中，研究者必须人为挑选哪些记忆被保留，哪些会被舍弃。比如，如果只保存“成绩好”的经历，就可能让一个虚拟学生表现得越来越自信；但如果同时保存“考试失败”的片段，他可能会表现出焦虑和不安。

这意味着，研究者在筛选记忆的时候，就已经在潜移默化地塑造模拟结果。记忆是教育的一部分，过度操控会让智能体变得像提线木偶，看似在自由思考，实则在重复研究者希望的轨迹。反之，如果完全不干预，智能体可能会生成一些毫无意义的碎片记忆，导致行为混乱。这正是“过度控制vs自发涌现”的另一种体现。

计划（Planning）： 思考决定行动

身份告诉我们“你是谁”，记忆决定了“你记得什么”。但只有到了计划这一环节，虚拟居民才真正开始“思考”该怎么做。这是生成式智能体模型（GABM）最具张力的部分：它既是研究者干预最多的地方，也是最能决定结果是否真实的地方。

在GABM中，计划并不等同于解一道题那么简单，而更像是一个虚拟大脑的思维方式。它需要把身份（你是谁）、记忆（你经历过什么）结合起来，然后转化为一条“接下来要做什么”的逻辑路径。正因如此，研究者在提示词中如何设计计划，几乎决定了模拟结果的性质。

计划（Planning）旨在融入体现智能体独特视角和情感反应的个性化思考过程。该组件的功能是通过综合来自“身份”组件的特征和来自“memory”组件的内容，来生成与情境相适应的行为意图和战略反应。研究者通过提示（prompt）来植入决策逻辑，引导智能体根据其身份和记忆进行审议、制定策略并形成意图。具体的规划方法包括“共情规划”（empathetic planning），即智能体在行动前推断和感知他人的行为与情感，以及“主观规划”（subjective planning），即决策与智能体预设的角色或身份保持一致，这两种方法常利用思维链（Chain-of-Thought, CoT）或内心独白等技术来实现。计划组件通过汲取“身份”组件的特征来确定决策倾向，利用“记忆”组件中的过往经验来为决策提供信息，并最终生成指导模拟中行为输出的行动意图，从而与其他组件紧密互动。

计划的几种方式

（1）结构化推理：像写标准答案一样思考

这是研究者最常用的方法。在提示词里，他们会要求虚拟居民分步骤推理，比如先分析利弊，再写出结论。这种方式的好处是，结果条理清晰，很容易和既有理论对接。例如，在 Hua et al.（2023）的战争模拟中，研究者让国家智能体必须先识别敌人和盟友，再根据列表做决策。结果是，国家的选择几乎都符合预设的逻辑路径，研究者得到了可解释性很强的结果。

但问题是，这种思维方式有点像学生写作文时被规定了“开头-主体-结尾”的框架。文章不会出错，但也很难出现惊喜。模拟出来的社会行为，往往是研究者希望看到的，而不是社会互动自然生成的。

（2）角色驱动推理：把动机写进剧本

另一种常见方法是直接赋予动机。例如，“作为医生，你必须把病人的健康放在首位”；“作为商人，你要追求利润最大化”。这种方式让行为结果更符合身份，但同时也大大降低了行为的多样性。

在Xie et al.（2024）的信任实验中，研究者让虚拟居民在做选择时写下内心独白，这些独白被设计成符合身份的主观信念。结果，居民的行为显得逼真，但背后其实是研究者提前写入了信念模板。这就像我们常说的带着剧本上台，表演固然自然，但自由发挥的空间几乎没有。

（3）逐步推理（CoT）：思维留痕

近年来很流行的做法是要求虚拟居民“把思考过程写出来”。比如，在Akata et al.（2023）的博弈实验里，研究者让智能体必须“先预测对手可能的行为，再决定自己的出招”。这种强制性的推理轨迹，让行为结果更接近逻辑推理，而非凭直觉的选择。

问题在于， 人类的很多决定并不是逐步计算出来的，而是依赖直觉和经验。 比如，你不会在超市买一瓶水时，写下一份成本-收益-效用分析表。因此，虽然逐步推理提高了可解释性，却也让行为更理性化，削弱了人性化的偶然性。

（4）预设的策略与决策标准：在有限的框架中选择

有些研究甚至进一步把计划限制成几个选项，比如“合作、对抗、让步”，或者规定智能体必须用效用函数打分，再根据分数高低来决定。

在 EconAgent（Li, Gao, et al. 2024）的经济学模拟中，研究者让居民每季度进行一次反思，并根据效用函数调整消费与储蓄。这样一来，经济曲线的走势和既有理论高度吻合，但虚拟居民看上去更像是在解选择题，而不是在做真实生活中的模糊决策。

案例延展：不同计划方式如何塑造世界

战争模拟（Hua et al. 2023）：要求先识别敌友，再制定战略，结果是所有国家几乎必然形成阵营，战争逻辑被大大简化。

信任实验（Xie et al. 2024）：通过内心独白强化身份驱动，结果居民的行为更符合身份预设，但缺乏真实的信任动态。

经济模拟（EconAgent, Li et al. 2024）：通过固定反思机制，模拟结果像是写进剧本的经济学教材，而不是自然生成的复杂波动。

这些案例说明：计划不仅仅是一个思维过程，更是研究者控制模拟的关键入口。

方法论困境：思维的自由还是枷锁？

计划环节揭示了一个根本矛盾：

如果研究者把思维方式写得太详细，虚拟居民就会像按照解题步骤走的学生，结果条理清晰，却失去了复杂性。

如果研究者什么都不规定，虚拟居民可能会跑题，做出完全无关的决定，导致模拟失控。

这其实正是Li and Wu（2025）论文的核心观点：计划是最容易“过度控制”的地方。研究者既要避免虚拟居民变成木偶，又要防止他们陷入混乱。这种张力，与教育中的“鸡娃”与“放养”何其相似：一边是把人生写进计划书的孩子，另一边是完全无拘无束、可能迷失方向的孩子。

因此，计划不仅仅是技术细节，更是一个方法论上的考验。它迫使研究者不断追问：我们看到的社会现象，到底是虚拟居民在互动中自然生成的，还是研究者写好的剧本在上演

研究者对计划（Planning）组件的过度控制主要体现在以下几个方面：

（1）强加结构化的推理和决策框架：研究者会设计特定的逻辑顺序或分析框架，并提示智能体在做决策时必须遵循。例如，引导智能体按预设步骤识别盟友与敌人，或将决策过程框定在一个具体的二元问题内，这使得模拟更像是对研究者预设逻辑的机械执行，而非智能体自主产生的多样化反应模式；

（2）嵌入特定角色的动机、策略和目标：通过提示词为智能体灌输特定的内在动机、预定义的战术或总体目标，以使其行为与指定角色保持一致。例如，为智能体设定“荣誉高于生命”的强烈动机，或提供一个包含特定战术（如诚实/欺骗性证据）的有限策略库，这会直接引导智能体的行为路径，使其为了优化预设目标而行动，从而使观察到的社会结构更像是深度编程的结果，而非自发的发现；

（3）强制执行特定的认知过程：明确提示智能体在得出结论前，必须采用并阐述某种特定的推理过程，如“链式思考”（Chain-of-Thought）。研究发现，强制使用这类推理方式会显著改变模型的默认输出模式和集体智能动态，这意味着观察到的行为可能是特定提示技巧的人为产物，而非智能体 genuinely emergent 的特征；

（4）定义明确的决策标准、阈值或效用函数：为智能体指定评估选项和做出选择时所依据的精确标准、数字阈值或数学效用函数。例如，使用基于偏好依附和同质性的效用函数来模拟网络形成，或设定一个阈值来决定智能体何时会采纳某种行为。这种方法虽然可以精确地建模特定理论，但也使得智能体的行为变得高度可预测，并被这些形式化的规则严格束缚，其行为更像是在执行被强加的模型，而不是对无约束选择机制的洞察。

行动（Action）：

个体的行动决定世界的样子

思考最终要落地为行动（Action）。行动环节是生成式智能体模型（GABM）中最直接、最具可观测性的部分，因为它标志着一个虚拟居民如何真正与环境互动、与他人交往，从而推动整个模拟世界的发展。然而，正如Li and Wu (2025) 所指出的，行动往往也是研究者最容易产生控制欲的地方。一旦智能体完全自由行动，模拟结果就可能偏离研究目标，甚至陷入混乱；但如果研究者过度限制行动范围，模拟的真实性和复杂性又会大打折扣。

行动的边界：封闭与开放

在研究实践中，行动通常被设计成封闭或开放两类模式。封闭的行动域意味着研究者预先定义好有限的行动集合，虚拟居民只能在这些选项中进行选择。例如Hua et al. (2023) 在设计国际关系模拟时，给每个国家智能体设定了七类固定的行动，如宣战、结盟、谈判等。这种做法的好处是条理清晰、便于统计，也更符合建模的严谨性，但它的问题在于缺乏人类行为的模糊性和创造性。现实中的国家在外交博弈中，往往会选择一些不在剧本里的做法，比如通过暧昧的声明来拖延，或者采取灰色操作进行试探，而这些微妙的策略在严格的行动空间里是无法出现的。

与之相对的是开放的行动域，研究者允许智能体自由生成自己的行为描述。例如，一个虚拟居民可能在模拟中突然提出要组织读书会，或者临时决定发起抗议。这样的设计无疑更接近人类社会的复杂性，也能带来更多的意外发现，但它的风险同样巨大，因为这些自由生成的行动很可能会和研究目标背道而驰，甚至让整个模拟失去解释力。在经济学模拟中，本来研究者关注的是消费和储蓄的模式，但如果某个虚拟居民突然决定“去火星旅游”，整个系统就会彻底偏离主题，失去研究价值。因此，大多数研究者往往会在二者之间寻找平衡，在允许一定自由的同时，仍然维持基本的边界。

行动的格式化与数据化

除了限定行动范围，研究者还会在技术上对行动输出进行严格的格式化，以便于后续的数据分析。最典型的例子是EconAgent（Li, Gao, et al. 2024），研究者要求虚拟居民用 JSON 格式提交自己的消费倾向和储蓄比例。这样做的好处是数据整齐、便于量化，模拟出来的经济曲线和经济学理论高度吻合，研究者也可以清楚地对比不同条件下的变化。但问题在于，这样的智能体更像是在填表格或答选择题，看似在自主决策，实则是在满足预先写好的参数框架。换句话说， 它们的行动被削减成了数据点，而不是社会互动的自然表现。

这种现象在现实生活里并不陌生。它类似于考试时的选择题，学生心中也许有更复杂的想法，但最终只能在A、B、C、D四个选项里做出选择。虚拟居民在格式化输出下的行动，本质上也在被迫迎合研究者的测量方式。

案例与方法论困境

不同的行动设计会直接塑造模拟结果。Williams et al. (2023) 在疫情模拟中，让虚拟居民的行动仅限于“是否选择居家隔离”。这样的设定清晰地展示了疫情传播在不同条件下的走势，但人类在疫情中的复杂行为都被排除在外，例如有人可能会偷偷外出；有人会临时囤积物资；有人会因为谣言而做出极端选择。Hua et al. (2023) 的战争模拟中，七类固定的行动让国家的互动更像是一盘棋局，逻辑明确，但外交中的模糊地带和情绪波动则不复存在。而在EconAgent中，格式化的经济决策让模型看似完美贴合理论，却失去了现实生活中消费决策那种随意性和不确定性。

这些案例揭示了一个方法论上的两难。过度控制的结果是模拟变成了剧本排练，虚拟居民像演员一样在按本子走台词；过度自由的结果则是模拟变成了即兴表演，观众虽然觉得有趣，但无法从中总结出稳定的规律。这种张力和教育中的极端情况非常相似：一边是时间安排被精确到分钟的学生，成绩稳定但缺乏创造力；另一边是完全放任自流的孩子，自由散漫却难以形成系统性的学习成果。

因此，行动环节不仅是技术层面的选择，更是方法论上的立场表态。Li and Wu (2025) 指出，GABM在行动设计上仍然缺乏成熟的标准，研究者往往需要在可控性和真实性之间反复试探。每一次设定行动的边界，都是在回答一个根本的问题：我们希望模拟呈现的是一个井然有序的模型化社会，还是一个充满不确定性和矛盾的复杂世界？答案的不同，决定了模拟最终是科学的缩影，还是幻象的投射 *

从行动组件的角度来看，研究者主要通过以下方式进行过度控制：（1）强加高度受限的行动集合：这也被称为封闭域控制，即研究者定义一个有限且明确的离散行动列表，智能体只能从中选择。这种做法严重限制了智能体的行为空间，可能导致对复杂社会互动的过度简化，并阻碍新策略的出现；（2）通过结构化格式和规则约束行动输出：研究者通过施加特定的格式要求或有限的参数来指导和限制自由形式的行动生成；（3）调控行动效能和互动模式：这涉及研究者定义智能体行动的影响力、范围或强度，或明确构建智能体之间互动的机制。这种做法虽然能确保系统按预期的影响模型运行，但也可能无法揭示在更少控制的社会环境中影响力是如何自然传播或被抵制的。

协同与方法论困境：

从单点控制到系统操控

在生成式智能体模型中，身份、记忆、计划和行动并不是相互独立的模块，而是一个环环相扣的整体。身份为智能体提供了角色和性格的起点，记忆为这一角色注入了延续性，计划决定了它如何思考，而行动则是思考最终落实到世界的方式。看似是四个分开的部分，实际上任何一个环节的设计都会层层传导，最终影响整个模拟的走向。Li and Wu (2025) 在论文中指出，这种跨环节的协同正是决定模拟结果真实性的关键，同时也是研究者最容易进行潜在操控的入口。

我们不妨把这种协同关系理解成教育过程中的多重作用。一个孩子的身份设定可能是未来的科学家，这决定了他会被安排去学习更多理科课程；记忆的积累让他不断回想起“自己擅长解决难题”的经历，从而形成稳定的自信；计划的方式让他在遇到问题时倾向于逻辑推理，而不是情绪化反应；最后，在行动中，他会选择申请科研项目或参与实验，而不是随意娱乐。四个环节像多米诺骨牌一样，层层推动，最终让他的整个人生轨迹被早早写定。如果我们把这个比喻放到GABM里，就能理解为什么研究者在任何一个环节的设计，都会对整体行为施加深远影响。

Li and Wu (2025) 在归纳了22篇相关研究，并梳理了过度控制在四个环节的不同表现方式。在身份层面，研究者常常通过细化角色设定来确保模拟结果贴近研究目标；在记忆层面，研究者可能会人为挑选保留或删除的记忆，从而影响智能体的连续性；在计划层面，研究者会规定思维方式或决策标准，以保证逻辑合理；而在行动层面，研究者则往往通过限制选项或格式化输出，来使数据更便于统计。每一环节看似是局部的微调，但当这些操控叠加在一起，整个模拟系统就不再是一个自由生长的社会，而更像是一台精密但僵硬的机器。

以 Park et al. (2023) 的虚拟小镇为例，身份设定为居民提供了基本的社会角色，记忆系统让他们能够在互动中保持一致性，计划机制决定了他们如何对事件做出反应，而行动空间则限制了他们的行为范围。四个环节相互配合，使得小镇居民的互动呈现出某种逼真感。然而，这种逼真到底是自然涌现的，还是研究者通过每一环节的控制累积出来的结果？Li and Wu (2025) 的担忧正在于此：过度的跨环节操控，会让模拟结果变成幻象，而不是现实的镜像。

这种跨环节协同还带来另一个方法论困境，那就是边界模糊性。在实际研究中，很难清晰界定某个社会现象究竟来自于身份的设定、记忆的保留，还是计划的逻辑。比如在 Hua et al. (2023) 的战争模拟里，一个国家最终选择结盟，究竟是因为它的身份被设定成“安全焦虑型”，还是因为研究者只保留了它“受威胁”的记忆，亦或是因为计划环节规定了“必须先判断敌友再行动”？

表面上看，这是模拟中一个自然的战略决策，实际上却可能是三重操控的叠加结果。这种情况在教育里也常见：一个学生在考试中取得好成绩，我们很难判断这是因为他的“身份”是学霸，他的“记忆”里有充足的练习经验，他的“计划”方式是逻辑条理清晰，还是因为他的“行动”被考试制度限定成了选择题。多个环节的耦合，让因果关系难以拆解。

Williams et al. (2023) 的疫情模拟同样揭示了这种困境。他们让虚拟居民的记忆中不断更新感染人数，在计划环节要求他们根据风险水平做出理性判断，最后在行动环节规定他们只能选择“居家隔离”或“不隔离”。最终呈现出来的社会现象似乎非常符合人类的理性防疫逻辑，但仔细追问会发现，这种理性其实是研究者通过多环节控制拼凑出来的。如果在身份中设定一些居民是怀疑主义者，在记忆中保留“曾经上当受骗”的经历，在计划中允许情绪化判断，在行动中开放更多模糊的行为，结果可能会完全不同。由此可见，所谓的理性社会更多是设计者的幻象，而不是模型的自发涌现。

EconAgent（Li, Gao, et al. 2024）的例子则展示了另一种协同模式。研究者通过身份设定把智能体区分为不同收入群体，通过记忆系统积累他们的消费习惯，再通过计划机制要求他们每季度反思一次经济形势，最后让他们在行动中提交JSON格式的消费和储蓄比例。整个流程环环相扣，结果是一条符合宏观经济学理论的曲线。然而问题在于，这样的经济行为究竟有多少部分是真实涌现的？从身份到行动的层层操控，让这些居民更像是理论模型的执行器，而不是自主互动的社会成员。

Li and Wu (2025) 因此提出了一个尖锐的问题：我们在GABM中看到的社会现象，到底是智能体自由互动的结果，还是研究者的设计产物？当协同效应被过度操控时，模拟结果虽然整齐、美观、易于解释，却失去了最宝贵的复杂性和不确定性。而如果研究者完全放开控制，结果可能会混乱无序，甚至无法得出可用的结论。就像教育一样，过度设计的孩子可能成为“完美的产品”，却缺乏独立思考的灵魂；完全放养的孩子则可能随波逐流，难以形成稳定的成长路径。

因此，协同不仅是技术层面的挑战，更是方法论上的试金石。它迫使我们不断追问：我们究竟是要构建一个“逼真”的模拟世界，还是要寻找一个能真正解释社会复杂性的实验场？如果选择前者，我们得到的可能是一个可控却空洞的幻象；如果选择后者，我们必须容忍混乱与不确定。真正的科学价值，或许正是在这种混乱中孕育出来的。

控制与涌现之间的学术与人性困境

回顾前文，我们一路走过了身份、记忆、计划和行动四个环节，看到它们如何逐层叠加、相互作用，最终塑造出生成式智能体模型（GABM）中的模拟社会。我们也看到，这些环节从来都不是孤立的，而是协同影响的结果。身份为虚拟居民定下角色和性格，记忆让他们的行为具有延续性，计划为他们提供思维方式，而行动则是思维最终落实到世界的表现。四个环节环环相扣，看似只是研究者在技术上的提示词设计，但实际上，这背后潜藏的是一个关于“控制”与“涌现”的根本困境 * 。

研究者一方面希望通过使用抽象、简洁的“描述性提示词”来激活大语言模型的内在知识，从而促使智能体的自主性并产生真实的涌现行为。然而，这种方法存在低内部效度和行为不一致的风险，因为模型对抽象概念的解读可能与研究者的意图有偏差，且其言行可能不一。

为了克服这种不确定性，研究者倾向于使用“指令性提示词”，通过直接命令或行为建议来精确引导智能体，以获得更高的控制力和可预测性。但这又带来了“过度控制”的风险，即模拟结果可能更多地反映了研究者嵌入在提示词中的预设和偏见，而非智能体互动中自发产生的社会动态。

面对这种困境，研究者出现了“方法论倒退”或者路径依赖的倾向，滑向了两个业已成熟的方向：一个方向是回归到传统ABM（代理人基建模）的范式，即通过引入大量的数值参数化来定义智能体属性和互动规则，但这牺牲了LLM在模拟社会场景方面的优势；另一个方向则是将本应是涌现式的多智能体互动，转变为更类似于“个体LLM测试”的场景，即通过极度详细的行为规则和预设的互动路径，让多智能体模拟在功能上变得与直接向单个LLM输入一个完整情景没有区别。

Li and Wu (2025) 的论文之所以重要，正是因为它提醒我们：当研究者在身份中加入过多细节，在记忆中人为筛选片段，在计划中规定思维方式，在行动中限制选择空间时，整个模拟世界可能就变成了一场“幻象”。所谓的“复杂社会行为”，可能只是研究者的设计产物。换句话说，我们看到的并不是真正的涌现，而是披着复杂外衣的控制结果。这就好比教育中鸡娃的逻辑：孩子的高分和名校录取看似是他们成长的结果，但实际上是父母和学校把一切安排好了，孩子只是照着剧本演绎。

然而，完全放弃控制也并不可取。如果研究者在四个环节都放手，虚拟居民可能会展现出毫无逻辑的混乱行为，模拟结果变得无法解释，也无法和现实世界产生对照。这种情况下，研究者虽然保留了涌现的自由，但失去了科学研究所需要的秩序和可验证性。这就像教育中的放养，孩子或许在自由中找到了个性，但也可能在缺乏指导中迷失方向，失去了系统性的成长路径。

正因如此， GABM的真正价值，并不在于让虚拟居民无限逼近真实，而在于为社会科学提供一种新的实验场。 它让我们有机会在虚拟环境里探索社会互动的复杂性，而不是在现实中冒着巨大风险进行试验。比如，在疫情中我们无法随意操纵真实人口的隔离政策，但我们可以在GABM中模拟不同决策路径的后果；在国际关系中，我们无法实验性地引导国家进入战争，但可以通过虚拟智能体推演潜在的结果。这种替代性实验的价值，是任何传统方法都无法比拟的。

因此，问题的关键并不是要在控制和涌现之间做出非此即彼的选择，而是要承认这两者之间的张力始终存在，并且学会在其中找到平衡。研究者需要反思：什么样的控制是必要的边界，什么样的放手是对复杂性的尊重。身份可以提供基本的社会定位，但不能写死个体的全部性格；记忆可以保证行为的一致性，但也要保留偶然与遗忘的可能；计划可以提供思维框架，但不应变成研究者写好的解题步骤；行动可以设置合理的范围，但也要允许灰色地带和模糊行为的出现。换句话说，研究者必须学会有限的控制，而不是全面的掌控。

这不仅仅是一个技术问题，更是一个方法论的问题。社会科学的魅力，正在于它研究的对象是复杂、多变、充满不确定性的社会。而 GABM的出现，给了我们一个近乎魔法般的工具，让我们在虚拟世界中重建社会互动的场景。可是，如果我们在使用这个工具的过程中，把社会的复杂性简化成剧本化的过程，我们最终得到的就不是科学，而是幻觉。真正的挑战在于：如何在保持科学严谨性的同时，仍然保留社会复杂性的涌现？

换个角度来看，这个问题其实也折射出现实社会的另一层隐喻。我们对孩子的教育、对组织的管理、对政策的设计，都面临着同样的难题：要不要严格控制，要不要放手让其自由发展？控制能带来秩序，但也可能扼杀创造力；放手能带来自由，但也可能导致失序。教育中的“鸡娃”和“躺平”，政策中的“强监管”和“放宽束缚”，企业中的“精细化管理”和“创新文化”，无一不是这种矛盾的现实版本。GABM不只是学术研究中的工具，它也让我们以另一种方式，重新思考人类社会中控制与自由的关系。

结论并不是要告诉我们答案，而是要让我们意识到问题的存在。也许，GABM最终给我们的启发并不是找到一种完美的提示词设计方式，而是提醒我们，在追求科学的同时，不要忘记保留复杂性的尊严。就像教育的目的不只是培养出一个听话的学生，而是让孩子成为一个独立而丰富的人，社会科学的目的也不只是制造出一个可控的模型，而是让我们更深刻地理解人类社会的多样性与不可预测性。

在未来，GABM或许会成为社会科学研究不可或缺的工具，但它能否真正帮助我们理解世界，取决于研究者是否愿意面对这种困境。如果研究者一味追求整齐划一的结果，它可能会变成一台制造幻象的机器；如果研究者敢于容忍混乱与不确定，它或许能揭示出社会互动中最真实、最复杂、最人性的那一面。而这，也许才是GABM最值得我们期待的价值所在。

来源：博识雅士

标签：模型智能体躺平语言万字

本文地址：http://news.43b.com.cn/a/1359678.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!