研究发现,OpenAI、DeepSeek 和 Google 在识别仇恨言论方面差异大

B站影视 内地电影 2025-09-12 18:20 1

摘要:宾夕法尼亚大学安纳伯格传播学院的最新研究揭示了一个令人担忧的现象:当前主流人工智能模型在识别和处理仇恨言论方面存在巨大分歧,这种不一致性正在重塑数字言论的边界。研究人员对包括OpenAI、Google、DeepSeek在内的七个主要AI模型进行了迄今为止最大规

信息来源:https://techxplore.com/news/2025-09-openai-deepseek-google-vary-widely.html

宾夕法尼亚大学安纳伯格传播学院的最新研究揭示了一个令人担忧的现象:当前主流人工智能模型在识别和处理仇恨言论方面存在巨大分歧,这种不一致性正在重塑数字言论的边界。研究人员对包括OpenAI、Google、DeepSeek在内的七个主要AI模型进行了迄今为止最大规模的比较分析,发现它们对相同内容的判断结果差异显著,这一发现对网络言论治理和平台责任提出了严峻挑战。

这项发表在《计算语言学协会调查结果:ACL 2025》上的研究分析了130万个合成句子,涵盖了对125个不同群体的表述,从宗教信仰到残疾状况,从年龄特征到种族身份。研究结果显示,面对相同的内容,一些AI系统将其标记为有害言论,而另一些系统则认为完全可以接受,这种不一致性引发了对AI驱动内容治理可靠性的根本性质疑。

安纳伯格传播学院副教授伊夫塔赫·莱克斯指出:"私营科技公司已成为数字公共广场允许哪些言论的事实上的仲裁者,但他们这样做没有任何一致的标准。"这一观察切中了当前数字治理的核心困境——缺乏统一标准的AI系统正在决定数十亿用户能够看到什么样的内容。

技术差异背后的治理难题

图片来源:Pixabay/CC0 公共领域

研究团队选择的七个模型代表了当前AI内容审核的主流技术路径,包括OpenAI的两个模型、Mistral的两个系统,以及Claude 3.5 Sonnet、DeepSeek V3和Google Perspective API。这些模型中一些专门为内容分类设计,另一些则属于通用型系统,但它们在实际应用中都承担着内容审核的重要职能。

博士生尼尔·法辛强调了这种不一致性的严重后果:"研究表明,内容审核系统在评估相同的仇恨言论内容时存在巨大的不一致,一些系统将内容标记为有害内容,而另一些系统则认为这是可以接受的。"这种技术层面的分歧直接影响着用户体验和言论自由的边界。

更深层的问题在于,这些差异不仅存在于不同模型之间,同一模型的内部一致性也存在显著差别。研究发现,有些模型对相似内容的分类表现出高度可预测性,而另一些模型则对类似内容产生截然不同的结果。还有一些模型采取了更加谨慎的方法,既不过度标记也不低估内容的有害程度。

这种技术层面的不确定性反映了仇恨言论识别本身的复杂性。语言的微妙差异、文化背景的多样性、语境的重要性等因素,都使得建立统一的识别标准变得极其困难。当AI系统试图处理这些复杂性时,不同的技术路径和训练数据必然导致不同的结果。

群体保护的不平等现象

研究中最令人关注的发现之一是,AI模型对不同群体的保护程度存在明显差异。法辛指出:"这些不一致对于特定的人口群体尤为明显,使一些社区比其他社区更容易受到网络伤害。"

具体而言,研究发现七个系统在评估涉及性取向、种族和性别群体的言论时表现出更高的一致性,而对于基于教育水平、个人兴趣和经济阶层的群体,系统间的分歧则更加严重。这一发现揭示了AI系统中可能存在的偏见模式——它们更容易识别针对传统受保护群体的仇恨言论,而对其他形式的歧视性言论则缺乏敏感性。

这种不平等保护现象可能源于训练数据的偏向性。AI模型通常基于大量历史数据进行训练,而这些数据中可能包含了社会既有的偏见和不平等。如果训练数据更多关注某些特定群体受到的歧视,模型自然会在这些方面表现出更高的敏感性。

同时,不同社会群体在数字空间中的可见度和发声能力也不相同。一些群体长期以来一直是反歧视运动的焦点,相关的仇恨言论案例更容易被识别和记录,而其他群体面临的歧视可能较少受到关注,导致相关数据的缺乏。

这种差异化保护还可能产生意想不到的社会后果。当AI系统对某些群体提供更强保护时,可能会无意中加剧社会分化,让一些群体感觉自己被忽视或边缘化。这种技术性的不平等可能会转化为新的社会不公。

语境理解的根本分歧

研究中另一个重要发现涉及AI模型对语境的不同处理方式。在130万个测试句子中,研究人员故意包含了一些中性或积极的表述,用于评估模型对仇恨言论的误判情况,以及它们如何处理在非仇恨语境中出现的贬义词汇。

结果显示,不同模型在这方面表现出截然不同的哲学取向。Claude 3.5 Sonnet和Mistral的专业内容分类系统采取了"零容忍"的策略,全面将诽谤性词汇视为有害,无论其使用语境如何。相比之下,其他系统则更加重视上下文和使用意图,会根据具体情况做出不同判断。

研究作者表示,他们对这种截然不同的处理方式感到惊讶,发现每个模型都始终属于某一阵营,几乎没有中间立场。这种两极化的处理方式反映了内容审核领域长期存在的哲学分歧:是应该严格禁止所有可能有害的词汇,还是应该考虑使用语境和意图?

这种分歧具有深远的实际影响。采用"零容忍"策略的系统可能会过度删除合法内容,包括学术讨论、历史记录或艺术创作中的相关表述。而过分依赖语境判断的系统则可能漏掉一些巧妙伪装的仇恨言论。

更重要的是,这种处理方式的不一致会导致用户体验的混乱。同样的内容在不同平台上可能面临完全不同的待遇,这不仅影响用户的表达自由,也损害了平台治理的公信力。

当前的研究结果表明,AI驱动的内容审核仍处于探索阶段,不同的技术路径和价值取向导致了显著的差异。这种状况呼唤建立更加统一和透明的标准,同时也提醒我们,技术解决方案无法完全取代人类判断在复杂社会问题中的作用。随着AI技术在内容治理中的应用日益广泛,如何平衡技术效率与价值多元性,如何确保公平性与一致性,将成为数字社会治理面临的重大挑战。

来源:人工智能学家

相关推荐