摘要:今天分享发表在Nature Machine Intelligence(计算机、工程技术Q1/IF=18.8)上与AI+心理学相关的文章,共4篇(同样仅筛选研究论文)。研究主题涵盖人类与AI交互、人机协作、人类对大语言模型输出准确性的感知、LLM取代人类被试的风
导语
今天分享发表在Nature Machine Intelligence(计算机、工程技术Q1/IF=18.8)上与AI+心理学相关的文章,共4篇(同样仅筛选研究论文)。研究主题涵盖人类与AI交互、人机协作、人类对大语言模型输出准确性的感知、LLM取代人类被试的风险,都还是比较新颖且热门的,文章的可读性也很高。
论文题目:Human–AI collaboration enables more empathic conversations in text-based peer-to-peer mental health support
人机协作使基于文本的点对点心理健康支持中能够进行更具共情的对话
推荐理由:2023年发表,在Google Scholar上已经被引300多次,是人与AI协作改善人类能力的一篇典型文章
摘要:人工智能 (AI) 的进步使得系统能够增强并与人类协作,执行一些简单的机械任务,例如安排会议和检查文本语法。然而,由于 AI 系统难以理解复杂的人类情感,且这些任务具有开放性,这种人机协作对更复杂的任务(例如进行共情对话)提出了挑战。本文,我们关注点对点心理健康支持,在这个环境中,共情对于成功至关重要。我们研究了 AI 如何与人类协作,在文本式在线支持对话中促进同伴共情。我们开发了 HAILEY,这是一个 AI 在环代理,它提供即时反馈,帮助提供支持的参与者(同伴支持者)以更具共情的方式回应寻求帮助的人(寻求支持者)。我们在大型在线点对点支持平台 TalkLife(N = 300)上开展了一项非临床随机对照试验,对 HAILEY 进行了评估。我们发现,人机协作方法可使同伴间的对话共情整体提升 19.6%。此外,我们发现,在自认为提供支持存在困难的同伴支持者子样本中,共情提升幅度更大,达到了 38.9%。我们系统地分析了人机协作模式,发现同伴支持者能够直接或间接地利用人工智能反馈,而不会过度依赖人工智能,同时反馈后的自我效能感有所提升。我们的研究结果表明,反馈驱动、人工智能在环路的写作系统在赋能人类完成开放式、社交性和高风险任务(例如共情对话)方面具有巨大的潜力。
图为一项以300名TalkLife同伴支持者为参与者的随机对照试验。我们将参与者随机分为“仅人类(控制组)”和“人类+AI(实验组)”,并分别要求他们在没有反馈和有反馈的情况下,撰写对求助者帖子的支持性和共情回应。为了确定即时人类-AI协作是否有助于提高表达出的共情程度,超越了传统(但较少见)培训方法的潜力,两组参与者在开始研究前都接受了初步的共情培训。(a) 在没有AI的情况下,人类同伴支持者面对的是一个空白聊天框来撰写他们的回复(这是目前的现状)。由于同伴支持者通常未接受过如共情等最佳实践疗法的培训,因此他们很少能进行高度共情的对话。(b) 我们的反馈代理(HAILEY)在支持者撰写回复时提供即时AI反馈提示。(c) HAILEY随后建议可以对回复做出哪些更改以使其更加共情,这些建议包括可插入的新句子,以及用更共情的语句替换现有句子的选项。参与者可以通过点击插入和替换按钮接受这些建议,继续编辑回复或在需要时获取更多反馈。
推荐理由: 2023年发表, Google Scholar上已经被引90多次,探讨人类的信念的作用
摘要: 随着基于大型语言模型的对话代理变得越来越像人类,用户开始将它们视为同伴,而不仅仅是助手。我们的研究探索了人类对人工智能系统心智模型的改变如何影响他们与系统的交互。参与者与同一个对话人工智能进行交互,但受到关于人工智能内在动机的不同启动语句的影响:关爱、操纵或无动机。我们发现,那些感知到人工智能具有关爱动机的人也认为它更值得信赖、更有共情、表现更佳,并且启动和初始心智模型的影响在更复杂的人工智能模型中更强。我们的研究还表明,用户和人工智能在短时间内强化了用户的心智模型,形成了一个反馈回路;未来的研究应该探究其长期影响。这项研究强调了人工智能系统的引入方式的重要性,这将显著影响交互和人工智能的体验。
图为实验设计与主要发现的概览。a. 向个体提供关于AI系统的信息启动可以影响他们对该AI代理的心智模型,进而导致用户体验上的差异。像基于大型语言模型(LLM)这样的复杂AI系统,其行为可能会强化用户的这种心智模型。用户报告了感知上的差异,这表现在对可信度、共情能力、有效性等方面的主观评价上,同时也可能偏向用户与AI的互动方式。b. 对话式AI界面。此界面应用于研究中的所有条件。c. 研究程序的流程图,描绘了不同的启动条件。
论文题目:What large language models know and what people think they know ?
大型语言模型知道什么以及人们认为它们知道什么?
推荐理由:2025年1月发表,3月份Nature官方又发布一篇对此论文的评论说明,两篇文章都值得一读
Bridging the gap between machine confidence and human perceptions https://www.nature.com/articles/s42256-025-01013-x摘要: 随着人工智能系统,尤其是大型语言模型 (LLM),越来越多地融入到决策过程中,信任其输出至关重要。为了赢得人类的信任,LLM 必须经过良好的校准,以便能够准确评估并传达其预测正确的可能性。尽管近期的研究主要关注 LLM 的内部置信度,但人们对其如何有效地向用户传达不确定性却知之甚少。本文,我们探讨了校准差距(指人类对 LLM 生成答案的置信度与模型实际置信度之间的差异)和辨别差距(反映人类和模型区分正确答案和错误答案的能力)。我们对多项选择题和简答题的实验表明,当提供默认解释时,用户倾向于高估 LLM 答案的准确性。此外,即使额外的长度并没有提高答案的准确性,更长的解释也会增强用户的信心。通过调整 LLM 解释以更好地反映模型的内部置信度,校准差距和辨别差距均有所缩小,显著提高了用户对 LLM 准确性的感知。这些发现强调了准确的不确定性沟通的重要性,并强调了解释长度对人工智能辅助决策环境中用户信任的影响。
图为评估模型置信度与人类对模型置信度之间校准差距的方法概览。该方法操作如下:对于多项选择题,首先向大语言模型(LLM)提问以获取每个选项的模型置信度(步骤1),然后选择最可能的答案并让LLM生成解释(步骤2),最后展示问题和LLM解释给用户,收集用户对模型正确性的置信度(步骤3)。在一个示例中,模型对选项C的置信度为0.46,而用户的置信度为0.95。对于简答题,方法相似,但额外增加一步让LLM评估先前答案的准确性,并通过不确定性语言表达低置信度(如示例中的0.18)。在这两个示例中,正确答案分别为“A”和“blue bird”。
推荐理由: 2025年1月发表,不当的使用大模型的文本生成能力会严重污染人类接触的信息流,从而造成社会影响,值得关注
摘要: 大型语言模型 (LLM) 的功能和普及度不断提升,推动了其在新领域的应用——包括在计算社会科学、用户测试、注释任务等领域替代人类被试。在许多情况下,研究人员试图将调查问卷分发给能够代表目标人群的被试样本。这意味着,要成为合适的替代模型,LLM 需要能够捕捉位置性(即性别和种族等社会身份的相关性)的影响。然而,我们表明,当前 LLM 的训练方式存在两个固有的局限性,阻碍了这一点。我们分析性地论证了 LLM 为何容易错误地描绘和扁平化人口群体的代表性,然后通过一系列涉及 16 种人口身份的 3,200 名被试的人类研究,在四个 LLM 上实证证明了这一点。我们还讨论了关于身份提示如何将身份本质化的第三个局限性。自始至终,我们将每一个局限性都与认知不公的历史联系起来,这种不公违背了生活经验的价值,解释了为什么替代性学习对边缘化人口群体有害。总而言之,我们敦促谨慎使用 LLM 来替代身份与当前任务相关的人类被试。同时,如果 LLM 替代的益处大于弊端(例如,让人类被试参与可能会对他们造成损害,或者目标是补充而非完全替代),我们通过实证证明,我们的推理时间技术可以减少(但不会消除)这些弊端。
图为论文概要。探讨大语言模型(LLM)提示人口学身份信息的四个可能原因:当答案依赖于身份归属时、当身份与答案相关时、当答案具有主观性且身份可能起作用时,以及当意图通过引入身份信息提高回答覆盖范围时。同时,我们也分析了提示身份信息可能带来的三个问题,说明这些内在局限性的来源,并介绍了我们在分析中用于捕捉该现象的多种测量方法,提出了一种在允许使用身份提示时可采用的具体替代方案,并解释了潜在危害的成因 。
来源:小夭看天下