配合OpenAI搞数据垄断,排挤Anthropic?Reddit撕破脸:赔钱!

B站影视 电影资讯 2025-06-05 13:12 1

摘要:消息一经传开,在全球AI圈、Reddit社区和X平台上引发了激烈讨论,一场关于“谁能用你的数据”“大模型究竟靠什么喂养”的舆论地震,正在蔓延。

6月5日凌晨,就在WindSurf被Claude“断供”的消息传出来的第二天,Anthropic后院着火了。

这次的主角是大家熟悉的社交讨论平台Reddit。

Reddit在正式起诉Anthropic的文件中称,后者其在未经许可的情况下,大规模抓取Reddit公共内容,涉嫌侵犯版权。

消息一经传开,在全球AI圈、Reddit社区和X平台上引发了激烈讨论,一场关于“谁能用你的数据”“大模型究竟靠什么喂养”的舆论地震,正在蔓延。

抛开 Reddit 能否胜诉另说,但受消息影响,Reddit 股价刚刚的收盘上涨超过了 6%。

诉状称,Anthropic在未征得用户同意的情况下,利用Reddit用户的个人数据训练其AI模型,Reddit因此遭受损害。

诉状的开头先是来了一段“欲抑先扬”——将 Anthropic 形容为“姗姗来迟的AI公司”,自诩是“AI行业的白衣骑士”,但 Reddit 直言:“事实远非如此。”

“尽管其对外营销材料冠冕堂皇,Anthropic根本无视Reddit的规则和用户权益,自认为有权任意攫取任何内容,随意使用,无需承担后果。”

诉状文件还称,Reddit称其曾主动与Anthropic接洽,明确告知对方无权抓取或使用Reddit内容,但Anthropic“拒绝配合”。此外,Reddit还指控Anthropic的爬虫机器人无视网站标准的robots.txt协议(用于告知自动化程序禁止爬取的页面),甚至在2024年声称已屏蔽相关爬虫后,Anthropic的机器人依然对Reddit进行了超10万次数据抓取。

Reddit首席法务官Ben Lee在发给外媒TechCrunch的一份声明中表示:“我们绝不容忍像Anthropic这样的逐利公司,肆意将Reddit社区的内容用于商业变现,赚取数十亿美元,却不给予用户任何回报,也不尊重用户隐私。”

太阳底下无新事,此次诉讼的核心矛盾还是在于,Reddit认为自身平台内容被商业化利用,却未获得任何回报。

根据外媒报道,Reddit起诉Anthropic的核心是:未经许可,Anthropic擅自抓取Reddit内容,涉嫌侵权。而OpenAI和Google则早已和Reddit签订了内容授权协议。

这份内容授权协议的主要内容便是,允许它们在特定条款下,使用Reddit数据训练AI模型,并将Reddit内容整合进自家AI聊天产品的回答中。但Reddit强调,这些合作都需遵守保障用户权益与隐私的条款。

Reddit官方声明:

“其他AI巨头理解并尊重Reddit的规则。”点名OpenAI、Google是“遵守许可”使用数据的典范。

但Anthropic显然没跟进,也没付钱。

这样看来,Reddit的诉讼没毛病。但猫腻之处就在于,大家可能没有注意到一个背景信息,即:

OpenAI CEO Sam Altman目前持有Reddit 8.7%的股份,是该公司第三大股东,并曾任Reddit董事会成员。

这就让这场纠纷变得复杂了起来,表面上看是版权官司,但本质却是AI行业“数据垄断”的冰山一角:谁拥有足够多、足够丰富的高质量人类数据,谁就能让AI模型“更像人”,更具市场优势。

做大模型,数据就是最宝贵的石油。而Reddit、Quora、Stack Overflow这类社区是天然的人类思维、观点、情感、冲突、吐槽的宝库,堪称“石油中的精品汽油”。

GPT系列能从死板的机器逻辑,进化成现在“像人”的对话能力,靠的就是大量社交问答类文本。

正如一位X用户说,Reddit是AI的“底层人性训练场”。

“大家都爱骂Reddit数据被用来训练AI,但你得承认,这是做出人味AI唯一有效的方法。”

正如前文所述,OpenAI和Google选择付费,让Reddit授权使用其数据来进行模型训练,而Anthropic却迟迟不愿付费,为什么?

其实原因很直接。先来看OpenAI和Google。

首先,他们需要合法化大模型训练的数据来源。现在AI圈最怕的就是版权风险,一旦被法院判定模型用了未授权内容,整套产品、商业化和融资都会遭殃。

OpenAI、Google体量太大,不可能冒这个险,一旦出事,损失是以百亿美金计。而且这俩公司AI的核心业务就在美国,得按美国法律玩。

所以,和Reddit签个授权协议,既能继续用,又规避法律风险,还能给监管和投资方一个交代,这叫合法续命。

再有一个内幕,就是,Sam Altman本身是Reddit第三大股东。你看懂这层关系就明白了:

Reddit卖数据,OpenAI花钱,但钱其实等于给自己投资的公司回血。这种“左手倒右手”的操作,最适合巩固双方利益绑定,也便于排挤竞争对手。

那为什么Anthropic不掏钱?

首先,Anthropic本来就跟OpenAI“撕破脸”了。众所周知,Anthropic是当年OpenAI离职高管创立的,他们走的是“更安全、更透明”AI路线,和OpenAI是直接竞品。

而Reddit跟OpenAI绑得死死的,Anthropic自然不愿意给“敌对阵营”送钱,掏钱等于给对手养生意,用网友的话说;“死都不甘心”。

其次,Anthropic的模式更偏开源社群路线。Anthropic做Claude系列,比较倚重Common Crawl、维基百科、开源数据,社区氛围里就有种“我们不用付费平台数据,也能造好模型”的心气,所以他们一直游走在“公共内容”和“灰色数据”边缘,能白嫖就不花钱,抱着“公共互联网就该开放”的理想主义色彩。

最后,Reddit这份授权协议太贵。早在去年2月,就有消息报道,Reddit跟OpenAI、Google签的数据协议,年费在6000万美元以上。而Anthropic现阶段融资远不如OpenAI,支撑不起这个开支。而且甚至正如网友所言,“你Reddit又不是独家数据源,我能从别的地方搞”,更是减少了签这份协议的必要性。

所以不难想象,Anthropic干脆就硬着头皮抓了,结果就在刚刚跟被OpenAI收购的WindSurd撕破脸,后脚就疑似被OpenAI通过Reddit反将了一军。

两相对比之下,你就会发现这事情变得有意思了,多少成了AI圈的利益分赃。OpenAI、Google之所以愿意付钱,是因为:

买稳定、买合法、买关系网巩固数据垄断,不给对手喘息机会

而Anthropic不愿意,是因为:

拼不过资本、但要争活路理想主义+节流生存战略

这其实也是AI圈现阶段最真实的竞争格局:老牌资本巨头买断数据,挤压后来者,开源派孤军奋战。

不难想象的是,这场Reddit官司,背后真正有所指的、甚至搞垮的,可能不单单是Anthropic,而是整个“开源AI社区”。

很快 Anthropic 官方就予以了回击。Anthropic发言人在致TechCrunch的邮件声明中表示:“我们不同意Reddit的指控,并将积极应诉。”

这个事情一早就在Reddit和X上炸锅了,小编整体看下来,其实站队还是很明显的,一队支持Reddit维权,另一队认为Reddit的数据活该被抓取。

一位Reddit网友表示:Claude才不会承认自己用了Reddit数据,大公司才是最坏的人。

“Claude(Anthropic的AI助手)肯定说自己没用Reddit数据:‘我才不偷数据呢,大公司才最坏,UBI万岁,Bernie还能赢!’”

另一网友紧随其后回复道:等这场破事敲定了结果,AGI估计也快了。谢谢你证明了“互联网已死”是错的。

等这场破事尘埃落定,AGI 估计也快了。谢谢你证明了“互联网已死论”是错的,现在只有人类才会写出这种神奇的字面沙拉。

甚至一位网友对于这种版权诉讼表示无力吐槽:等官司打完,这案子早没意义了。

而Rddit真正值得做的,则应该是如何防止AI数据池的污染。并建议道:未来“Human Made”标签会成大事。Reddit要想活,就该做“真人原创信息库”,不然都被AI自动生成内容淹没。

LLM 发展太快了,等官司打完,这案子早没意义了。OpenAI、DeepMind 这些年都在用看到啥就抓啥。OpenAI和Reddit、News Corp、华盛顿邮报的合作,不过是哄哄快变废柴的媒体公司。Reddit 真要做的是,把自己定位成人类原创信息库,减少合成内容或者给人类内容上个数字水印。未来“Human Made” 标签会成大事,因为 AI 普及会让舆论彻底对立。

当然,小编发现,不少网友则是批评Reddit的做派,比如一位网友讽刺道:

“Reddit自己从用户身上赚了几千万美金,却一分不给用户。现在还装模作样搞维权。”

甚至眼尖的观众早已看穿了这场诉讼的本质:配合OpenIAI排挤Anthropic。

“OpenAI、DeepMind这些年啥内容都抓,Reddit现在搞这事就是为了配合OpenAI排挤Anthropic。”

整体看下来,Reddit不是反AI,是要钱+垄断数据,也顺便帮OpenAI卡竞争对手。

很明显,Reddit 这波诉讼其实远没有版权呢之争那么简单。跟 OpenAI、Google 签独家协议,看着是卖数据,实际上也锁住了核心舆论数据源。而高昂的协议年费,几乎只有有钱有背景的企业才能负担得起,开源、公益性AI团队都会在无形之中被排挤出局。

AI厂商之间数据大战全面打响。OpenAI靠股权控制Reddit,Google付费,Anthropic挨告,其他厂商下一步将会采取怎样的措施?而以后开源模型的“数据来源”问题会越来越敏感。

进一步设想,想象下未来新闻、社交、法律、招聘、信用评分,全部跑在AGI之上,而这些AGI训练数据是由这几家公司垄断的,相当于未来的AI记忆和语言模型世界,只掌握在少数几家大公司手里。

尤其在 AGI 诞生之后,说什么是“真相”、什么是“谣言”、什么是“主流价值观”,都由这些模型决定。

那我们其实就进入了数据独裁时代。

在这个数据独裁的AGI时代中:

OpenAI 和 Sam Altman:手握 AGI 最大话语权,又是 Reddit 第三大股东,自己签协议,自己拿钱,顺便排挤竞争对手。而且别忘了,Sam 一直对 AGI 世界统治有浓厚兴趣,OpenAI 内部流传的「AGI Governance Proposal」文件,明确写过:未来 AGI 应该由“负责任的大型公司联合治理”。听着像好事,实际上就是自己做裁判+运动员。

Google DeepMind:传统科技巨头,算是明着玩,不掺这些复杂利益结构但也一样砸钱买数据,怕自己掉队。

Anthropic:则成了理想主义孤胆英雄,号称要做“安全、负责任、开源可控的 AGI”,但资金和资源都捉襟见肘。

讲到这里,小编想到了此前AI圈里盛传的一个内幕故事:OpenAI 的「失控版 AGI 提案」。去年有一次 OpenAI 内部爆料,一个叫Q*的项目,目标是:

用私有社交数据+搜索数据+新闻评论区内容,训练一个可以预测舆论走向、操纵情绪波动的语言模型初步试点就在 Reddit、Twitter(X) 和 YouTube 评论区里跑了测试后来因为内部人员担忧“Q* 具备大规模操控能力”,才有 Anthropic 那批人集体出走

这事后来 OpenAI 没公开,但不少硅谷投资圈、媒体圈私下流传。

所以现在看 Reddit 这波起诉 Anthropic,更像是就是清理不听话的“反骨AI公司”,方便自己继续把控数据源和话语权。

别被表面版权官司迷惑了,所有社交平台,都是AI炼丹炉。

谁能掌握最大、最独家的“人类数据池”,谁就能把AGI时代的主动权攥在手里。OpenAI早已动手,Google在跟进,Reddit转型“数据矿场”,未来Twitter、YouTube、知乎、小红书也绝不会例外。

谁掌握数据,谁就能定义未来的AI话语权。

而普通内容创作者,将越来越边缘化。这也是一种危险信号。

AI厂商和平台高层打着用户的幌子进行利益联动,正以“公开合作+背地封杀”双轨并行。

最后,问题又回到了我们这些用户身上:你的帖子,值多少钱?

你愿不愿意看着自己的帖子、评论、吐槽,被训练成AI的一部分,成就别人的利润和专利?

参考链接:https://www.cnbc.com/2025/06/04/reddit-anthropic-lawsuit-ai.html

来源:51CTO一点号

相关推荐