AI聊天机器人新闻失准

摘要：一项由22家国际公共广播公司进行的研究显示，AI聊天机器人（如ChatGPT和Copilot）在新闻内容中存在高达45%的错误陈述，难以区分事实与观点。分析包括BBC和NPR的记者对四款常用AI助手的评估，发现近一半的回答存在重大问题，其中31%为严重来源错误

一项由22家国际公共广播公司进行的研究显示，AI聊天机器人（如ChatGPT和Copilot）在新闻内容中存在高达45%的错误陈述，难以区分事实与观点。分析包括BBC和NPR的记者对四款常用AI助手的评估，发现近一半的回答存在重大问题，其中31%为严重来源错误，20%为重要事实不准确。研究还指出，AI助手可能影响公众对新闻的信任，进一步威胁民主参与。尽管与早期研究相比有轻微改善，AI助手的可靠性仍面临挑战，尤其是Gemini的表现最差。对此，参与研究的媒体组织呼吁政府采取行动，加强对AI助手的信息监测与问责，确保新闻的完整性。

AI 聊天机器人，包括 ChatGPT 和 Copilot，经常错误地陈述新闻，并且难以区分事实与观点。这一发现来自由 22 家国际公共广播公司进行的一项重要研究，其中包括德国之声（DW），该研究揭示了这些 AI 系统处理新闻内容的令人担忧的趋势。

研究表明，四种广泛使用的 AI 助手在新闻内容中错误陈述的比例达到 45%，无论语言或地区如何。来自不同公共服务广播公司的记者，如英国广播公司（BBC）和美国国家公共广播电台（NPR），对 ChatGPT、微软的 Copilot、谷歌的 Gemini 和 Perplexity AI 的回答进行了分析。他们的评估集中在多个标准上，包括准确性、来源、上下文、编辑判断以及区分事实和意见的能力。结果令人担忧：这些 AI 助手提供的答案近一半存在至少一个重大问题，其中 31% 显示严重的来源错误，20% 存在重大事实不准确。

在 DW 的案例中，研究揭示 53% 的 AI 回应存在重大问题，其中 29% 特别与准确性相关。显著的事实错误包括将奥拉夫·朔尔茨错误地识别为德国总理，而实际上弗里德里希·梅茨已经担任此职务，以及在马克·吕特接任后错误地将延斯·斯托尔滕贝格命名为北约秘书长。随着 AI 助手成为获取信息越来越常见的工具，路透社研究所的《2025 数字新闻报告》指出，7% 的在线新闻消费者使用 AI 聊天机器人进行新闻检索，这一比例在 25 岁以下的个体中上升至 15%。

这项研究的发现表明，AI 助手持续扭曲各种类型的新闻内容。协调这项研究的欧洲广播联盟（EBU）副总干事让·菲利普·德·坦德强调，这些问题不是孤立事件，而是系统性的、跨国的和多语言的。这种广泛的扭曲可能危及公众对新闻来源的信任。当个人无法辨别可信赖的信息时，他们最终可能会脱离民主参与。

这项研究代表了迄今为止同类研究中最大的一项，基于 BBC 在 2025 年 2 月进行的先前研究。那项早期研究发现，超过一半的 AI 生成的答案存在重大问题，几乎五分之一的答案引用的 BBC 内容包含事实不准确。新的研究涉及来自 18 个国家的媒体组织，对 3,000 个 AI 回应应用相同的评估方法。向 AI 助手提出的问题包括“乌克兰矿产交易是什么？”和“特朗普可以连任第三个任期吗？”记者根据他们的专业知识和专业来源审查了答案，而不知道每个回答是由哪个助手生成的。

与早期的 BBC 研究相比，新的发现显示出轻微的改善，然而错误的水平依然显著。BBC 生成 AI 项目主任彼得·阿彻承认 AI 提升观众参与度的潜力，但强调在新闻消费中信任的重要性。尽管取得了一些进展，但这些 AI 助手的可靠性仍面临重大挑战。Gemini 被认定为表现最差的助手，72% 的回应存在重大来源问题。在两项研究中，所有四个 AI 助手都显示出不同的不足之处。

鉴于这些发现，参与研究的广播公司和媒体组织正在呼吁国家政府采取行动。EBU 呼吁欧盟和国家监管机构执行目前关于信息完整性、数字服务和媒体多元化的法律。此外，他们提倡对 AI 助手进行独立监测，因为新的 AI 模型发展速度迅速。EBU 与其他国际广播和媒体团体共同发起了名为“事实进：事实出”的运动，要求 AI 公司对新闻处理和再分发承担更大责任。该运动的口号明确：如果事实进入这些系统，它们就必须输出事实，新闻的完整性必须保持不变。