摘要:从宗教信仰、性取向到经济阶层,再到教育背景,对包括OpenAI、Google、DeepSeek、Mistral、等在内的七个主流AI模型进行了系统测试。
美国宾夕法尼亚大学安纳伯格传播学院发布了一项大型研究,揭示了当前主流AI模型在识别仇恨言论方面存在显著分歧。
这项研究不仅引发了关于AI内容审核机制的广泛讨论,也将公众的注意力重新拉回到一个始终没有达成共识的问题上:AI究竟能不能公正地审核人类的言论?
研究团队使用了130万个合成句子,涵盖了125个群体的表述。
从宗教信仰、性取向到经济阶层,再到教育背景,对包括OpenAI、Google、DeepSeek、Mistral、等在内的七个主流AI模型进行了系统测试。
测试中,同一段表述在不同模型中被标记为“有害”或“可接受”的判断结果频繁出现,模型之间的差异让人难以忽视。
OpenAI的GPT系列与Google的Perspective API在处理仇恨言论时的判断差异,成为此次研究的焦点之一。
例如在涉及某些敏感词汇时,OpenAI模型更倾向于依靠上下文进行判断,而Google的模型则更容易采取“零容忍”的策略,直接将有争议的词汇标记为有害。
这不是某一个模型的问题,而是整个AI内容审核体系暴露出的系统性差异。研究指出,有些模型对相似语句的判断结果高度一致,另一些模型则在处理相似内容时结果不稳定,甚至前后矛盾。
这种不一致的背后,技术架构只是一个方面,更根本的问题在于不同公司在“仇恨言论”的定义上并没有形成统一标准。
这也就意味着,当用户在不同平台发布同样的内容时,可能遭遇完全不同的审核结果。
研究中还发现,各大模型在处理语境时的策略差异极大。
像Claude 3.5 Sonnet和Mistral的两个模型,基本采取“一刀切”的方式,只要句子中出现贬义词汇,不论语境、意图,直接判为有害。
而OpenAI、DeepSeek等模型则会结合上下文判断词语是否真构成伤害。
这就引发了一个现实问题:AI审核到底该不该理解语境?
例如,有人用“侮辱性语言”是在引用学术研究、文学作品或历史事件,这种情况在“零容忍”模型中很可能也会被误伤;
而依赖语境判断的模型,虽然更加灵活,但也可能放过那些“伪装得巧妙”的仇恨言论。
这两种处理方式各有利弊,但它们所体现出的,是对“内容安全”与“表达自由”之间边界的不同考量。
研究中最具争议性的发现之一,是AI模型在保护不同群体上的差异。
当面对攻击性内容时,AI对性别、种族、性取向等传统敏感群体的识别相对准确,高度一致;但对于教育背景、兴趣爱好、经济阶层等群体的歧视,AI模型的判断差异就非常大。
这很可能与训练数据的来源有关。很多AI模型使用的是公开网络数据,而这些数据本身就带有社会偏见,关注点集中在主流议题上,忽略了其他群体面临的问题。
长期以来被讨论得越多的群体,AI越“敏感”;而那些不常登上公共舆论场的群体,AI几乎“看不见”。
在实际应用中,这种不平衡会带来严重后果。一些群体在平台上获得了更强的保护,而另一些群体则可能长期处于“裸奔”状态,面临更大的网络伤害风险。
AI模型的分歧,不仅是学术问题,更直接影响到普通用户的表达空间。同一段话,在平台A被删除,在平台B可以正常发布,这种情况正在变得越来越普遍。
这对用户来说意味着什么?是表达的不确定性,是规则的不可预期,是对平台治理信任的不断削弱。当AI代替人类判断内容是否违规时,它的标准就必须足够清晰、稳定、公开。
这项由宾夕法尼亚大学安纳伯格传播学院发布的研究,提出一个值得深思的问题:AI是否真的适合担任“言论裁判”的角色?
从模型差异到判断逻辑,从群体偏见到平台标准,AI内容审核系统暴露出的问题层层叠加。AI可以提升效率,但无法替代人类判断中的复杂性和价值权衡。
正如研究副作者伊夫塔赫·莱克斯所说:“科技公司变成了数字公共广场的实际仲裁者,但他们之间并没有统一的规则。”
来源:时代简谈