中国AI“小翻车”揭示大问题,人类的数据要被用完了?

B站影视 2024-12-31 19:06 2

摘要:12月26日,被硅谷视作“东方神秘力量”的中国大模型公司DeepSeek突然发力,发布了全新的超大规模模型——DeepSeek-V3。这是一个性能比肩GPT-4o,训练成本却只有约557.6万美元的“极端性价比AI大模型”。

12月26日,被硅谷视作“东方神秘力量”的中国大模型公司DeepSeek突然发力,发布了全新的超大规模模型——DeepSeek-V3。这是一个性能比肩GPT-4o,训练成本却只有约557.6万美元的“极端性价比AI大模型”。

尽管“身价不高” DeepSeek-V3 仍一跃成为当前市面上最强的开源大模型,并很可能以较低的API价格,继V2后再掀起新一轮的AI价格战,捍卫“AI届拼多多”的名号!

在中国网友纷纷称赞新“国产之光”诞生时,DeepSeek-V3“翻车”了!

很快,有网友表示,在向DeepSeek-V3模型提问“你是谁”时,DeepSeek-V3会自称是ChatGPT。如果进一步询问DeepSeek V3关于API的问题,它也会直接给出OpenAI API的答案。

据业内人士分析,DeepSeek-V3可能直接在ChatGPT生成的文本上作为训练基础,这可能导致模型记住了一些GPT-4的输出,并在实际对话中逐字复述这些内容。“这种不用抓取数据,并且能够额外做数据处理,能节省时间、人力和训练成本。”

也有业内专家给出了另一种解释,“报错身份”是因为AI公司们获取数据的地方——网络,已经充斥着无数AI垃圾。欧洲联盟执法机构的一份报告指出,到2026年,90%的在线内容可能是AI生成的。报告表示,这种数据“污染”,使彻底过滤AI生成内容变得非常困难。

如果训练DeepSeek V3的“燃料”——互联网数据中,有大量ChatGPT生成的内容,就可能使其产生所谓的“幻觉”,表现出与ChatGPT类似的“说话方式”“思维模式”甚至“身份认同”。训练一个大模型需要吞噬海量数据,出现“幻觉”问题并不奇怪。

这一现象不仅在中国发生,此前谷歌的AI模型Gemini在被用中文提问时,也曾错误地回答,“我是百度文心大模型,一个由百度公司开发的大型语言模型”。

其实,DeepSeek V3的“小翻车”不仅让人质疑AI模型的自我认知能力、智能程度,也暴露出了当前AI技术发展中已经面临的大问题——人类的数据要被用完了!

得益于神经网络规模的扩大和更多数据的训练,AI技术在过去几年间“爆炸式”发展,各种大语言模型,比如ChatGPT和DeepSeek V3能够更好地模拟人类对话并发展出推理等功能。但这种发展是不可持续的。

《自然》《麻省理工科技评论》等多家杂志网站,以及各大AI公司的行业明星人物在最近纷纷指出,一方面,训练AI所需要的能源越来越多;另一方面,作为AI技术“化石燃料”的人类数据正在濒临耗尽。

过去10年,训练AI所需要的数据增加了100倍,从数百亿增加到数万亿。可人类创造的新内容增长速度相比之下只能用“极其缓慢”来形容,每年不足10%。

据研究机构预测,到2028年,用于训练AI模型的数据集典型规模将达到公共在线文本总估计量的规模,这意味着AI可能会在大约4年内耗尽训练数据。换言之,即便是在最理想的情况下,AI也将在4年内耗尽训练数据。

而且现实与理想本来就有极大的差距!作者、画家、记者、出版商、报纸、网站所有者……数据所有者已经开始反击AI技术对其内容的滥用行为,收紧访问权限,要求支付费用,甚至干脆拿起了法律武器。

2023年12月,《纽约时报》向OpenAI及其合作伙伴微软提起了诉讼,指控其侵犯了版权;今年4月,纽约市Alden全球资本旗下的8家报纸联合发起了一起类似的诉讼。8月,OpenAI被超过100位YouTube主播集体诉讼,指控其擅自转录了数百万个视频用来训练大模型。英伟达、苹果、Anthropic等巨头也涉及其中。

据相关机构的研究,2023 年至 2024 年间,主要 AI 数据集中 5% 的数据和 25% 的来自最优质来源的数据受到了限制。这毫无疑问将加速数据资源的枯竭,提前引发“数据危机”,逼迫开发人员寻找新的出路。

为应对即将到来的数据瓶颈,字节跳动等中国互联大厂正在以单次几十到几百的价格招募“AI录音员”,主动出击,制造语料库。

据报道,字节跳动从年初就开始招募素人为豆包大模型录音。两人结组、单次3小时,包括80分钟的自由聊天,有提示词的60组对话,单次结算金额为300元。但是“对话不能水时长,要有内容和信息,质量太差会酌情扣款”“不能修改提示词,大模型理解不了,会酌情扣款”“录音不清晰、吞字或者情绪不足,要重录。”

实际上,成都、太原、贵州等二线城市,早就有很多为互联网公司“制造AI数据”的外包工作。招聘平台上早就有了大量时薪30-55元的AI录音兼职。某大模型产品经理表示,“去年,数据标注、方言朗读,专科生就能做。现在招的都是211、985的实习生带外包。”

据了解,为了获取更多质量更高的数据,国内国际的相关企业都在建设“数据基地”。比如,百度的数据基地分布在如南昌、阳泉、太原、贵州等非一线城市,美团也有自己的驻厂AI训练师。非洲早在2022年就已经有超过2400家企业将AI作为主营业务。

但是,“用钱开路”生产数据,即便可以提高数据质量,也注定是一条“昂贵”的道路。大模型用户对按月收费模式的反对,以及谁好用,立刻就“跳槽”的使用习惯,会让数据成本给AI行业的成功商业化蒙上了新的阴影。

人类的数据要被用完了,AI行业将会如何发展?

大规模生产数据,会成为新兴的“长期职业”吗?

AI行业将给人类社会带来怎样的冲击?

本周六(1月4日)晚9点,鸿学院微课堂将与您共同探讨《中国AI“小翻车”揭示大问题,人类的数据要被用完了?》。“国货之光”极端性价比AI大模型DeepSeek-V3自认ChatGPT,揭示训练数据面临耗尽危机。AI行业如何越过“数据边界”?AI发展会不会带来新的天网危机?未来已来,蕴藏新的机遇。欢迎大家积极参与!

来源:宋鸿兵

相关推荐