Cloudflare称Perplexity绕过限制，抓取明令禁止AI抓取的网站

摘要：当地时间周一，Cloudflare 发布了一份报告，指控 AI 初创公司 Perplexity 在网站已明确标注禁止 AI 抓取的情况下仍进行抓取，并通过改变身份标识规避拦截规则。

IT之家 8 月 5 日消息，当地时间周一，Cloudflare 发布了一份报告，指控 AI 初创公司 Perplexity 在网站已明确标注禁止 AI 抓取的情况下仍进行抓取，并通过改变身份标识规避拦截规则。

报告显示，Perplexity 忽略网站 robots.txt 文件（用于告知搜索引擎和 AI 公司哪些页面可供索引）及针对其已知爬虫的拦截规则，调整 UA 和 ASN 信息，通过更换身份和网络地址等手段绕过屏蔽并抓取大量内容。

Cloudflare 称，他们通过“机器学习与网络信号相结合”的方式，识别出了 Perplexity 爬虫的特征，其行为涉及“数万个域名，每天数百万次请求”。

针对指控，Perplexity 发言人 Jesse Dwyer 表示：Cloudflare 的博文是“销售噱头”，并表示文中截图“显示没有内容被访问”。在后续邮件中，Dwyer 进一步否认，称 Cloudflare 提到的机器人“甚至不是我们的”。

Cloudflare 表示，其调查源于客户投诉 —— 部分客户已在 robots 文件中添加规则并专门拦截 Perplexity 的已知爬虫，但仍遭其抓取。Cloudflare 测试后确认属实。

作为回应，Cloudflare 已将 Perplexity 的爬虫移出认证名单（用于标识合法爬虫），并添加新的技术拦截其行为。

IT之家注意到，这并非 Perplexity 首次面临此类指控。去年《Wired》等媒体也曾指控 Perplexity 抄袭其内容；首席执行官 Aravind Srinivas 在 Disrupt 2024 大会上面对媒体问询却不敢回答。

参考资料：

来源：IT之家一点号

标签：网站 perplexity cloudflare dwyer

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!