配合OpenAI搞数据垄断，排挤Anthropic？Reddit撕破脸：赔钱！

摘要：消息一经传开，在全球AI圈、Reddit社区和X平台上引发了激烈讨论，一场关于“谁能用你的数据”“大模型究竟靠什么喂养”的舆论地震，正在蔓延。

6月5日凌晨，就在WindSurf被Claude“断供”的消息传出来的第二天，Anthropic后院着火了。

这次的主角是大家熟悉的社交讨论平台Reddit。

Reddit在正式起诉Anthropic的文件中称，后者其在未经许可的情况下，大规模抓取Reddit公共内容，涉嫌侵犯版权。

消息一经传开，在全球AI圈、Reddit社区和X平台上引发了激烈讨论，一场关于“谁能用你的数据”“大模型究竟靠什么喂养”的舆论地震，正在蔓延。

抛开 Reddit 能否胜诉另说，但受消息影响，Reddit 股价刚刚的收盘上涨超过了 6%。

诉状称，Anthropic在未征得用户同意的情况下，利用Reddit用户的个人数据训练其AI模型，Reddit因此遭受损害。

诉状的开头先是来了一段“欲抑先扬”——将 Anthropic 形容为“姗姗来迟的AI公司”，自诩是“AI行业的白衣骑士”，但 Reddit 直言：“事实远非如此。”

“尽管其对外营销材料冠冕堂皇，Anthropic根本无视Reddit的规则和用户权益，自认为有权任意攫取任何内容，随意使用，无需承担后果。”

诉状文件还称，Reddit称其曾主动与Anthropic接洽，明确告知对方无权抓取或使用Reddit内容，但Anthropic“拒绝配合”。此外，Reddit还指控Anthropic的爬虫机器人无视网站标准的robots.txt协议（用于告知自动化程序禁止爬取的页面），甚至在2024年声称已屏蔽相关爬虫后，Anthropic的机器人依然对Reddit进行了超10万次数据抓取。

Reddit首席法务官Ben Lee在发给外媒TechCrunch的一份声明中表示：“我们绝不容忍像Anthropic这样的逐利公司，肆意将Reddit社区的内容用于商业变现，赚取数十亿美元，却不给予用户任何回报，也不尊重用户隐私。”

太阳底下无新事，此次诉讼的核心矛盾还是在于，Reddit认为自身平台内容被商业化利用，却未获得任何回报。

根据外媒报道，Reddit起诉Anthropic的核心是：未经许可，Anthropic擅自抓取Reddit内容，涉嫌侵权。而OpenAI和Google则早已和Reddit签订了内容授权协议。

这份内容授权协议的主要内容便是，允许它们在特定条款下，使用Reddit数据训练AI模型，并将Reddit内容整合进自家AI聊天产品的回答中。但Reddit强调，这些合作都需遵守保障用户权益与隐私的条款。

Reddit官方声明：

“其他AI巨头理解并尊重Reddit的规则。”点名OpenAI、Google是“遵守许可”使用数据的典范。

但Anthropic显然没跟进，也没付钱。

这样看来，Reddit的诉讼没毛病。但猫腻之处就在于，大家可能没有注意到一个背景信息，即：

OpenAI CEO Sam Altman目前持有Reddit 8.7%的股份，是该公司第三大股东，并曾任Reddit董事会成员。

这就让这场纠纷变得复杂了起来，表面上看是版权官司，但本质却是AI行业“数据垄断”的冰山一角：谁拥有足够多、足够丰富的高质量人类数据，谁就能让AI模型“更像人”，更具市场优势。

做大模型，数据就是最宝贵的石油。而Reddit、Quora、Stack Overflow这类社区是天然的人类思维、观点、情感、冲突、吐槽的宝库，堪称“石油中的精品汽油”。

GPT系列能从死板的机器逻辑，进化成现在“像人”的对话能力，靠的就是大量社交问答类文本。

正如一位X用户说，Reddit是AI的“底层人性训练场”。

“大家都爱骂Reddit数据被用来训练AI，但你得承认，这是做出人味AI唯一有效的方法。”

正如前文所述，OpenAI和Google选择付费，让Reddit授权使用其数据来进行模型训练，而Anthropic却迟迟不愿付费，为什么？

其实原因很直接。先来看OpenAI和Google。

首先，他们需要合法化大模型训练的数据来源。现在AI圈最怕的就是版权风险，一旦被法院判定模型用了未授权内容，整套产品、商业化和融资都会遭殃。

OpenAI、Google体量太大，不可能冒这个险，一旦出事，损失是以百亿美金计。而且这俩公司AI的核心业务就在美国，得按美国法律玩。

所以，和Reddit签个授权协议，既能继续用，又规避法律风险，还能给监管和投资方一个交代，这叫合法续命。

再有一个内幕，就是，Sam Altman本身是Reddit第三大股东。你看懂这层关系就明白了：

Reddit卖数据，OpenAI花钱，但钱其实等于给自己投资的公司回血。这种“左手倒右手”的操作，最适合巩固双方利益绑定，也便于排挤竞争对手。

那为什么Anthropic不掏钱？

首先，Anthropic本来就跟OpenAI“撕破脸”了。众所周知，Anthropic是当年OpenAI离职高管创立的，他们走的是“更安全、更透明”AI路线，和OpenAI是直接竞品。

而Reddit跟OpenAI绑得死死的，Anthropic自然不愿意给“敌对阵营”送钱，掏钱等于给对手养生意，用网友的话说；“死都不甘心”。

其次，Anthropic的模式更偏开源社群路线。Anthropic做Claude系列，比较倚重Common Crawl、维基百科、开源数据，社区氛围里就有种“我们不用付费平台数据，也能造好模型”的心气，所以他们一直游走在“公共内容”和“灰色数据”边缘，能白嫖就不花钱，抱着“公共互联网就该开放”的理想主义色彩。

最后，Reddit这份授权协议太贵。早在去年2月，就有消息报道，Reddit跟OpenAI、Google签的数据协议，年费在6000万美元以上。而Anthropic现阶段融资远不如OpenAI，支撑不起这个开支。而且甚至正如网友所言，“你Reddit又不是独家数据源，我能从别的地方搞”，更是减少了签这份协议的必要性。

所以不难想象，Anthropic干脆就硬着头皮抓了，结果就在刚刚跟被OpenAI收购的WindSurd撕破脸，后脚就疑似被OpenAI通过Reddit反将了一军。

两相对比之下，你就会发现这事情变得有意思了，多少成了AI圈的利益分赃。OpenAI、Google之所以愿意付钱，是因为：

买稳定、买合法、买关系网巩固数据垄断，不给对手喘息机会

而Anthropic不愿意，是因为：

拼不过资本、但要争活路理想主义+节流生存战略

这其实也是AI圈现阶段最真实的竞争格局：老牌资本巨头买断数据，挤压后来者，开源派孤军奋战。

不难想象的是，这场Reddit官司，背后真正有所指的、甚至搞垮的，可能不单单是Anthropic，而是整个“开源AI社区”。

很快 Anthropic 官方就予以了回击。Anthropic发言人在致TechCrunch的邮件声明中表示：“我们不同意Reddit的指控，并将积极应诉。”

这个事情一早就在Reddit和X上炸锅了，小编整体看下来，其实站队还是很明显的，一队支持Reddit维权，另一队认为Reddit的数据活该被抓取。

一位Reddit网友表示：Claude才不会承认自己用了Reddit数据，大公司才是最坏的人。

“Claude（Anthropic的AI助手）肯定说自己没用Reddit数据：‘我才不偷数据呢，大公司才最坏，UBI万岁，Bernie还能赢！’”

另一网友紧随其后回复道：等这场破事敲定了结果，AGI估计也快了。谢谢你证明了“互联网已死”是错的。

等这场破事尘埃落定，AGI 估计也快了。谢谢你证明了“互联网已死论”是错的，现在只有人类才会写出这种神奇的字面沙拉。

甚至一位网友对于这种版权诉讼表示无力吐槽：等官司打完，这案子早没意义了。

而Rddit真正值得做的，则应该是如何防止AI数据池的污染。并建议道：未来“Human Made”标签会成大事。Reddit要想活，就该做“真人原创信息库”，不然都被AI自动生成内容淹没。

LLM 发展太快了，等官司打完，这案子早没意义了。OpenAI、DeepMind 这些年都在用看到啥就抓啥。OpenAI和Reddit、News Corp、华盛顿邮报的合作，不过是哄哄快变废柴的媒体公司。Reddit 真要做的是，把自己定位成人类原创信息库，减少合成内容或者给人类内容上个数字水印。未来“Human Made” 标签会成大事，因为 AI 普及会让舆论彻底对立。

当然，小编发现，不少网友则是批评Reddit的做派，比如一位网友讽刺道：

“Reddit自己从用户身上赚了几千万美金，却一分不给用户。现在还装模作样搞维权。”

甚至眼尖的观众早已看穿了这场诉讼的本质：配合OpenIAI排挤Anthropic。

“OpenAI、DeepMind这些年啥内容都抓，Reddit现在搞这事就是为了配合OpenAI排挤Anthropic。”

整体看下来，Reddit不是反AI，是要钱+垄断数据，也顺便帮OpenAI卡竞争对手。

很明显，Reddit 这波诉讼其实远没有版权呢之争那么简单。跟 OpenAI、Google 签独家协议，看着是卖数据，实际上也锁住了核心舆论数据源。而高昂的协议年费，几乎只有有钱有背景的企业才能负担得起，开源、公益性AI团队都会在无形之中被排挤出局。

AI厂商之间数据大战全面打响。OpenAI靠股权控制Reddit，Google付费，Anthropic挨告，其他厂商下一步将会采取怎样的措施？而以后开源模型的“数据来源”问题会越来越敏感。

进一步设想，想象下未来新闻、社交、法律、招聘、信用评分，全部跑在AGI之上，而这些AGI训练数据是由这几家公司垄断的，相当于未来的AI记忆和语言模型世界，只掌握在少数几家大公司手里。

尤其在 AGI 诞生之后，说什么是“真相”、什么是“谣言”、什么是“主流价值观”，都由这些模型决定。

那我们其实就进入了数据独裁时代。

在这个数据独裁的AGI时代中：

OpenAI 和 Sam Altman：手握 AGI 最大话语权，又是 Reddit 第三大股东，自己签协议，自己拿钱，顺便排挤竞争对手。而且别忘了，Sam 一直对 AGI 世界统治有浓厚兴趣，OpenAI 内部流传的「AGI Governance Proposal」文件，明确写过：未来 AGI 应该由“负责任的大型公司联合治理”。听着像好事，实际上就是自己做裁判+运动员。

Google DeepMind：传统科技巨头，算是明着玩，不掺这些复杂利益结构但也一样砸钱买数据，怕自己掉队。

Anthropic：则成了理想主义孤胆英雄，号称要做“安全、负责任、开源可控的 AGI”，但资金和资源都捉襟见肘。

讲到这里，小编想到了此前AI圈里盛传的一个内幕故事：OpenAI 的「失控版 AGI 提案」。去年有一次 OpenAI 内部爆料，一个叫Q*的项目，目标是：

用私有社交数据+搜索数据+新闻评论区内容，训练一个可以预测舆论走向、操纵情绪波动的语言模型初步试点就在 Reddit、Twitter（X）和 YouTube 评论区里跑了测试后来因为内部人员担忧“Q* 具备大规模操控能力”，才有 Anthropic 那批人集体出走

这事后来 OpenAI 没公开，但不少硅谷投资圈、媒体圈私下流传。

所以现在看 Reddit 这波起诉 Anthropic，更像是就是清理不听话的“反骨AI公司”，方便自己继续把控数据源和话语权。

别被表面版权官司迷惑了，所有社交平台，都是AI炼丹炉。

谁能掌握最大、最独家的“人类数据池”，谁就能把AGI时代的主动权攥在手里。OpenAI早已动手，Google在跟进，Reddit转型“数据矿场”，未来Twitter、YouTube、知乎、小红书也绝不会例外。

谁掌握数据，谁就能定义未来的AI话语权。

而普通内容创作者，将越来越边缘化。这也是一种危险信号。

AI厂商和平台高层打着用户的幌子进行利益联动，正以“公开合作+背地封杀”双轨并行。

最后，问题又回到了我们这些用户身上：你的帖子，值多少钱？