摘要:哥伦比亚新闻评论的Tow数字新闻中心最近的研究揭示了生成性AI模型在新闻搜索中的显著准确性问题。研究评估了八种具备实时搜索功能的AI工具,发现超过60%的新闻相关查询提供了错误答案。约四分之一的美国人已转向使用AI模型,而非传统搜索引擎,这一趋势令人担忧。不同
#头条精品计划#
哥伦比亚新闻评论的Tow数字新闻中心最近的研究揭示了生成性AI模型在新闻搜索中的显著准确性问题。研究评估了八种具备实时搜索功能的AI工具,发现超过60%的新闻相关查询提供了错误答案。约四分之一的美国人已转向使用AI模型,而非传统搜索引擎,这一趋势令人担忧。不同平台的错误率差异显著,如Perplexity错误率为37%,ChatGPT为67%,而Grok 3高达94%。研究表明,这些AI模型倾向于提供听起来合理但实际上不正确的答案,且高级版本的错误率更高。此外,一些工具忽视了出版者的机器人排除协议,导致错误信息的传播。这些发现对AI搜索工具的可靠性提出了严峻挑战,特别是在它们取代传统搜索引擎的背景下。
哥伦比亚新闻评论的Tow数字新闻中心最近进行的一项研究揭示了与用于新闻搜索的生成性AI模型相关的显著准确性问题。该研究评估了八种具备实时搜索功能的AI驱动搜索工具,发现这些AI模型对超过60%的新闻内容相关查询提供了错误答案。这一令人担忧的错误率对这些AI驱动工具的可靠性提出了严重质疑,尤其是在它们越来越多地被用作传统搜索引擎的替代品时。
研究人员Klaudia Jaźwińska和Aisvarya Chandrasekar在报告中指出,目前约四分之一的美国人正在使用AI模型而非传统搜索引擎。考虑到研究中发现的可观错误率,这一趋势令人担忧。研究人员注意到不同平台之间的错误率差异显著。例如,Perplexity对37%的查询返回了错误信息,而ChatGPT搜索错误识别了67%(200个查询中的134个)文章。Grok 3则表现出最为惊人的错误率,94%的回答都是不正确的。
该研究的方法论包括将实际新闻文章的直接摘录输入AI模型,并请求它们识别文章的标题、原始发布者、出版日期和网址。共进行了1,600个查询,涵盖八种不同的生成性搜索工具。在这些AI模型中观察到的一个显著趋势是,它们倾向于提供听起来合理但实际上不正确或推测性的答案,而不是在缺乏可靠信息时选择不作回应。这一行为在所有测试模型中表现得相当一致。此外,研究还揭示,这些AI搜索工具的高级版本,如Perplexity Pro(每月20美元)和Grok 3的高级服务(每月40美元),往往比其免费版本更频繁地产生错误响应。这被归因于它们不愿意拒绝不确定的回答,最终导致整体错误率更高。此外,研究人员发现一些AI工具忽视了出版者用于防止未经授权访问的机器人排除协议设置。例如,Perplexity的免费版本能够识别出来自国家地理付费内容的所有10个摘录,尽管出版者明确禁止其网络爬虫访问。
来源:老孙科技前沿