专题回顾丨硅人还是肉人?合成数据在社会科学中的应用与争论

B站影视 欧美电影 2025-05-30 00:41 2

摘要:本专题的探讨始于技术变革对社会科学研究带来的双重冲击:合成数据对传统问卷的挑战,以及人工智能预测能力对认知权威的动摇。通过六项前沿研究的棱镜,我们得以窥见大语言模型(LLMs)介入社会科学领域的复杂图景——既有激动人心的潜能,亦伴随着不容忽视的隐忧。

本专题的探讨始于技术变革对社会科学研究带来的双重冲击:合成数据对传统问卷的挑战,以及人工智能预测能力对认知权威的动摇。通过六项前沿研究的棱镜,我们得以窥见大语言模型(LLMs)介入社会科学领域的复杂图景——既有激动人心的潜能,亦伴随着不容忽视的隐忧。

研究显示,LLMs在特定任务上展现出惊人能力:它们能够模拟“群体智慧”效应,其聚合预测准确性可与人类群体媲美(Schoenegger);能够预测社会科学实验的处理效应,甚至超越人类预测者(Hewitt);并且可以作为零样本数据标注者,辅助计算社会科学的研究流程(Ziems)。这些发现无疑为社会科学研究注入了新的活力,预示着方法论革新的可能性。

然而,警钟同样响亮。LLMs生成的合成数据虽能在平均值上逼近真实民意,但在变异度和统计推断层面却暴露出严重的可靠性问题,且易受提示工程与时间推移的影响(Bisbee)。其在模拟真实世界复杂的社交互动,尤其是处理信息不对称时,表现远不如在“全知”设定下那般“成功”(Zhou)。更为关键的是,模型中根深蒂固的偏见,特别是源于训练数据的地域中心主义和社会人口统计学偏差,可能导致研究结果失真,尤其是在跨文化或多元社会背景下(Abeliuk)。

综合来看,这些研究共同指向一个核心结论:当前阶段,大语言模型并非旨在完全替代人类受访者或传统数据收集方法的“合成样本”工厂,其更深远的价值或许在于作为一种强大的“研究工具”和“方法论催化剂”。正如导语所预示的,合成数据的革命性潜力不在于取代,而在于推动革新。LLMs既能模拟群体行为,也能反过来帮助我们揭示和理解算法自身的偏见;机器标注可以与人工编码形成互补验证,提升研究效率与信度。

因此,面对“硅人”的崛起,社会科学研究者并非站在被动接受或全然拒斥的岔路口。我们既要拥抱技术带来的机遇,利用LLMs拓展认知边界、激发研究想象、优化研究流程;也要保持清醒的批判性眼光,正视其局限与风险,警惕技术决定论的陷阱。正如研究所揭示的,简单的模型输出可能只是“海市蜃楼”,而其内在的偏差与不稳定性要求我们建立更为严格的数据验证标准、开发更具鲁棒性的评估框架,并探索人机协同的新范式。

“肉人”与“硅人”的关系并非简单的构造与被构造,更非一方对另一方的绑架。未来,社会科学研究的图景,更可能是在两者的深度互动、持续对话与审慎协同中被重塑。这要求研究者不仅要掌握运用新工具的技能,更要坚守社会科学的独立思考与价值关怀,确保技术服务于对真实社会更深刻、更公平的理解。唯有如此,我们才能在技术的浪潮中,真正实现认知体系的迭代升级,而非迷失方向。

大语言模型可以改变计算社会科学吗?

第一作者:Caleb Ziems, 斯坦福大学计算机科学系 NLP 小组博士生

发表于Computational Linguistics2024, SCI Q2, SSCI Q1, CCF B, RUC A

大语言模型(LLM)能零样本完成诸多语言处理任务。若其能可靠分类、解释社会现象,就能拓展计算社会科学(CSS)流程。本文给出 LLM 作为 CSS 工具的路线图,提供最佳提示实践和评估流程,评估 13 种语言模型在 25 个英文 CSS 基准上的零样本性能。分类任务中,LLM 虽不及最优微调模型,但与人类一致性较高;自由格式编码任务中,LLM 生成的解释超众包工作者黄金参考质量。结论是,当前 LLM 可从两方面扩展 CSS 研究流程:一是作为零样本数据标注者辅助人类标注团队;二是引导创意生成任务,如解释文本底层属性。LLM 有望与人类协作,参与社会科学分析。

“硅群体”的智慧:大模型与人类群体智慧的比较

第一作者:Philipp Schoenegger, 伦敦政治经济学院管理系, 行为实验室研究员

发表于 Science Advances2024, SCI JCR Q1

人类的预测准确性通过“群体智慧(wisdom of the crowd)”效应得以提升,即聚合后的预测往往优于个体预测。先前研究表明,单个大型语言模型(LLM)的表现通常低于人类群体聚合结果。我们利用 LLM 模拟了群体智慧效应:通过集成 12 个 LLM 对 31 个二元问题进行概率预测,并将其与 925 名人类预测者在 3 个月竞赛中的结果进行对比。结果显示,LLM 群体的表现显著优于无信息基准(no-information benchmark),且与人类群体在统计上无差异。我们还观察到类似人类的认知偏差,例如默许偏差(acquiescence bias)。在另一项研究中,当向 GPT-4 和 Claude 2 提供人类预测中位数时,其预测准确率提升了 17%至 28%;但若直接对人与机器的预测结果进行平均,则能获得更高的准确性。这表明通过简单聚合,LLM 的预测能力可与人类群体相媲美。

使用大语言模型预测社会科学实验结果

第一作者:Luke Hewitt, 斯坦福大学, 慈善与公民社会中心高级研究员

为评估大型语言模型能否用于预测社会科学实验结果,我们构建了一个包含 70 项预注册、全国代表性、在美国开展的调查实验的档案库,涵盖 476 项实验处理效应和 105,165 名参与者。我们提示一个先进的公开可用 LLM 模拟具有代表性的美国样本如何响应这些实验中的刺激。基于模拟响应得出的预测与实际处理效应呈现显著相关性,达到或超过了人类预测者的准确性。对于未发表的、不可能出现在模型训练数据中的研究,预测准确性依然保持高位。我们进一步评估了人口统计学亚组、不同学科领域以及九项近期大型研究中的预测准确性。综合而言,我们的结果表明 LLMs 可以增强科学与实践中的实验方法,但也凸显了其重要局限性和误用风险。

人工调查数据的合成替代品?大型语言模型的隐患

第一作者:James Bisbee, 范德堡大学政治学系助理教授, 数据科学研究所

发表于 Political Analysis2024, SSCI JCR Q1, 社会学 2 区, RUC A, IF=4.7

大语言模型(LLMs)为社会科学研究者提供了新的研究可能性,但其作为"合成数据"的潜力仍存在巨大未知。本文研究了流行 LLM ChatGPT 恢复公众意见的准确性:通过提示模型采用不同"角色",随后为 11 个社会政治群体提供情感温度计评分。ChatGPT 生成的评分平均值与我们基线调查(2016-2020 年美国国家选举研究,ANES)高度吻合。然而,ChatGPT 的抽样对统计推断并不可靠:其回答变异度低于真实调查,且回归系数常与 ANES 数据估计值存在显著差异。我们还记录了提示措辞微调如何改变合成回答分布,并展示相同提示在三个月间产生显著不同结果。综合而言,我们的发现对 LLM 生成合成调查数据的质量、可靠性和可重复性提出严重质疑。

大语言模型生成的调查数据的公平性考察

第一作者:Andrés Abeliuk, 智利大学计算机科学系助理教授

大语言模型(LLMs)在文本生成和理解方面表现卓越,尤其在模拟社会政治与经济模式时可作为传统调查的替代工具。然而,由于对社会人口统计和地理背景的潜在偏差缺乏研究,其全球适用性仍存疑。本研究通过分析智利与美国的公开调查数据,以预测准确性和公平性指标为焦点,评估 LLMs 在多样化人群中的表现。结果显示存在性能差异,且 LLMs 在美国数据集上表现更优。这种偏差源于模型训练数据以美国为中心的特性,即使控制社会人口统计差异后仍显著存在。在美国,政治身份与种族显著影响预测准确性,而在智利,性别、教育水平和宗教信仰的影响更为突出。本研究提出了一种衡量 LLMs 社会人口统计偏差的新框架,为实现模型在不同社会文化背景下更公平、均衡的性能提供了路径。

真凭实据还是海市蜃楼?揭示大语言模型模拟社交互动的误导性成功

第一作者:Xuhui Zhou,卡内基梅隆大学,语言技术研究所博士生

大型语言模型(LLM)在模拟人类社交互动方面取得了显著进展,为研究社会现象开辟了新途径。然而,许多研究采用了“全知”视角进行模拟(例如,用一个 LLM 生成所有对话者),这与现实世界中人类和 AI 智能体之间充满信息不对称的互动方式大相径庭。本研究旨在探讨这种差异。我们开发了一个评估框架,在不同设置(全知 vs. 非全知)下模拟 LLM 的社交互动。实验结果令人警醒:LLM 在不切实际的“全知”模拟中表现优异,但在更接近现实、存在信息不对称的条件下却举步维艰。这表明,处理信息不对称仍是 LLM 智能体面临的核心挑战。

来源:再建巴别塔

相关推荐