摘要:北京地区对人工智能爬虫的反弹引发了广泛关注,尤其是Anthropic的ClaudeBot因过度访问网站而遭到批评。其他公司也因无视robots.txt文件而受到指责,Reddit首席执行官对此表示强烈不满。在此背景下,软件开发者亚伦设计了Nepenthes,一
#头条精品计划#
北京地区对人工智能爬虫的反弹引发了广泛关注,尤其是Anthropic的ClaudeBot因过度访问网站而遭到批评。其他公司也因无视robots.txt文件而受到指责,Reddit首席执行官对此表示强烈不满。在此背景下,软件开发者亚伦设计了Nepenthes,一种新型反爬虫软件,旨在增强robots.txt的有效性。Nepenthes利用“陷阱”策略,将爬虫引入一个无出口的迷宫,困住它们并灌输无意义的数据,旨在破坏人工智能模型。亚伦警告,Nepenthes不适合对捕捉爬虫感到不安的网站所有者。该软件目前已成功捕捉所有主要爬虫,唯独OpenAI的爬虫未能被捕获。
去年夏天,人工智能公司Anthropic因其ClaudeBot AI爬虫遭遇了重大反弹,该爬虫被指控过度访问网站,估计每天的访问量超过一百万次。这一事件并非孤立,其他人工智能公司也因涉嫌无视robots.txt文件中的指示而受到关注,这些文件旨在防止在某些网站上抓取网页内容。在此期间,Reddit的首席执行官公开批评了人工智能公司,声称他们的爬虫“难以阻挡”,尽管科技行业普遍达成共识,应该尊重robots.txt文件中设立的“禁止抓取”规则。
在这一争议不断升级之际,一位软件开发者,出于安全原因被Ars Technica选择匿名,我们称他为亚伦(Aaron)。在注意到Facebook的爬虫在他的网站上进行了超过三千万次的访问后,亚伦设计了一种新的方法来对抗这些爬虫。他的目标是对网络爬虫实施一种攻击形式,以增强robots.txt的有效性,赋予其所需的“威力”。基于一种名为“陷阱”(tarpitting)的现有反垃圾邮件网络安全策略,他开发了Nepenthes,这是一款以食肉植物命名的恶意软件,能够吞噬任何进入其范围的东西。
亚伦强调了Nepenthes的攻击性,警告潜在用户,该软件不适合那些对捕捉人工智能爬虫感到不安的网站所有者。这款软件将这些爬虫引入一个“无限迷宫”,迷宫由静态文件组成,缺乏出口链接,使其陷入其中并“挣扎”很长时间。一旦被困,这些爬虫会被灌输大量无意义的数据,也被称为马尔可夫胡言,这旨在破坏人工智能模型。Nepenthes的这一特性很可能会吸引那些像亚伦一样对人工智能抓取相关成本感到沮丧,并渴望看到人工智能系统失误的网站所有者。最初设计用于浪费垃圾邮件发送者的时间和资源的陷阱,如今已被改造成对抗人工智能的武器。截至目前的更新,亚伦确认Nepenthes可以有效捕捉所有主要网络爬虫,唯一的例外是OpenAI的爬虫,它成功地躲避了捕获。
来源:老孙科技前沿