摘要:在科技飞速发展的今天,AI 已成为全球瞩目的焦点。而特斯拉与 SpaceX 的首席执行官埃隆・马斯克,这位科技界的传奇人物,却发出了令人震惊的警告:AI 模型的数据来源快枯竭了 。他指出,现实世界中用于训练人工智能模型的数据几乎已经耗尽,我们基本上已经用尽了人
在科技飞速发展的今天,AI 已成为全球瞩目的焦点。而特斯拉与 SpaceX 的首席执行官埃隆・马斯克,这位科技界的传奇人物,却发出了令人震惊的警告:AI 模型的数据来源快枯竭了 。他指出,现实世界中用于训练人工智能模型的数据几乎已经耗尽,我们基本上已经用尽了人类知识的累积总和来进行 AI 训练,这种情况大约在去年就已经发生了。马斯克的这一观点并非孤立,前 OpenAI 首席科学家伊利亚・苏茨克弗也曾在机器学习会议 NeurIPS 上表示,AI 行业已经达到了所谓的 “数据峰值”,训练数据的缺乏将迫使 AI 模型的开发方式发生转变。
数据,对于 AI 的重要性不言而喻。它就如同 AI 的 “燃料”,是 AI 发展的基础。在深度学习中,大量的数据被用于训练模型,让模型能够学习到各种模式和规律,从而具备预测和决策的能力。以图像识别为例,需要大量的图像数据来训练模型,让模型学习到不同物体的特征,才能准确地识别出图像中的物体。在自然语言处理领域,也需要海量的文本数据来训练模型,使其能够理解和生成人类语言。随着 AI 技术的不断发展,对数据的需求也在与日俱增。从早期简单的模型到如今复杂的大型语言模型,如 GPT 系列,数据的规模和质量都在不断提升。
如今,AI 的应用场景越来越广泛,从医疗领域的疾病诊断,到金融领域的风险预测,再到交通领域的自动驾驶,都离不开 AI 的支持。而这些应用的背后,是对大量数据的依赖。如果数据枯竭,AI 的发展将受到严重的制约,许多应用也将无法实现。因此,马斯克的警示,无疑为 AI 的发展敲响了警钟,让我们不得不重新审视数据在 AI 发展中的重要性,以及当前面临的数据危机。
美国的 AI 发展,在数据方面正陷入一个艰难的处境。AI 的训练,尤其是像大型语言模型这样的复杂系统,对数据的依赖程度极高。它们需要大量的数据来学习语言模式、语义理解以及各种知识,从而具备强大的语言处理能力。OpenAI 开发的 GPT-4,为了实现更精准的语言交互和复杂任务处理,背后是对海量文本数据的深度挖掘与学习。从互联网上抓取的新闻、博客、论文等各种文本,都成为了它训练的 “养分” 。
然而现在,美国 AI 发展却面临着数据来源枯竭的困境。真实数据的消耗殆尽是一个关键问题。随着 AI 技术的不断进步,对数据量和数据多样性的要求也在不断提高。但现实世界中,能够用于训练 AI 的数据资源是有限的。互联网上的公开数据,虽然曾经是 AI 训练的重要来源,但如今已被大量挖掘和利用。据 Epoch AI 的研究员 Pablo Villalobos 预测,到 2028 年左右,用于训练 AI 模型的数据集的规模将与公共在线文本总量相当,这意味着 AI 训练数据很可能在未来几年内耗尽 。这就好比一个不断索取的 “数据黑洞”,将互联网上的可用数据逐渐吞噬,却难以找到新的 “食物”。
内容提供商也开始加强对数据的保护,禁止 AI 公司抓取其数据用于训练。《纽约时报》等媒体对 OpenAI 和微软提起侵权诉讼,指控它们在未经许可的情况下使用受版权保护的新闻文章来训练 AI 聊天机器人。这一系列诉讼,使得 AI 公司获取数据的难度大幅增加。据麻省理工学院 AI 研究员 Shayne Longpre 的研究显示,数据提供商对特定爬虫的封锁数量急剧增加,高质量网络内容的封锁比例显著上升。这使得 AI 公司在数据获取上,面临着法律和技术的双重障碍,难以像以前那样轻松地获取大量的优质数据。
为了应对数据短缺的问题,美国的 AI 公司开始尝试使用合成数据,即通过 AI 生成的数据来训练 AI。OpenAI 每天生成的单词量已经与当前的 AI 训练数据集规模相当。在某些规则明确的领域,如国际象棋、数学、计算机编码等,合成数据确实能够发挥一定的作用。在医疗等真实数据有限或敏感的领域,合成数据也被用于解决数据不足的问题。合成数据也存在着严重的缺陷。它可能会导致模型出现 “幻觉”,生成看似合理但实际上并不存在的信息。递归循环还可能加剧错误,降低模型的学习质量,甚至引发 “模型自噬障碍” 等问题。这就像是给 AI 喂了 “不健康” 的食物,虽然暂时填饱了肚子,但却影响了它的 “健康成长”。
与美国 AI 的数据困境形成鲜明对比的是,TikTok 在中国就像一个源源不断地生产着新鲜数据的宝藏。它是字节跳动旗下的一款短视频社交平台,自 2016 年 9 月上线以来,迅速在国内走红,成为了人们日常生活中不可或缺的一部分。
从数据量来看,TikTok 拥有庞大的用户群体,每天都会产生海量的数据。截至 2024 年,抖音(含 TikTok)全球月活跃用户数超过 10 亿 ,仅在中国,抖音的日活跃用户数就达到了数亿级别。这些用户每天在平台上发布大量的短视频、进行互动交流,产生了丰富的文本、图像、视频等多类型数据。每天平台上的视频上传量数以亿计,用户的评论、点赞、分享等交互行为也会产生海量的数据记录。这些数据的规模之大,足以满足 AI 训练对数据量的高要求。
TikTok 的数据多样性也非常丰富。平台上的内容涵盖了生活的方方面面,从美食、旅游、时尚、科技到教育、文化、艺术等,几乎无所不包。不同年龄、性别、地域、职业的用户在平台上分享着自己的生活、兴趣和见解,形成了一个多元化的数据生态。年轻人分享的时尚穿搭、潮流文化,与中老年人分享的生活经验、传统文化,共同构成了一个丰富多样的数据宝库。这些多样的数据能够让 AI 学习到不同领域、不同风格的知识和模式,提升其泛化能力和对复杂世界的理解能力。
TikTok 数据的实时性也是其一大优势。在这个信息快速传播的时代,TikTok 能够实时捕捉到用户的最新动态和社会热点。当某个热点事件发生时,TikTok 上很快就会出现大量与之相关的视频和讨论,这些实时数据能够让 AI 及时了解到社会的最新变化,学习到最新的语言表达和行为模式。某部热门电影上映时,TikTok 上会迅速涌现出大量的电影相关视频,包括影评、精彩片段剪辑、模仿秀等,AI 可以通过对这些实时数据的学习,快速掌握电影相关的知识和话题热度,为用户提供更精准的内容推荐和服务。
这些丰富、多样且实时的数据,对于 AI 训练来说,具有极高的价值。它们可以帮助 AI 更好地理解人类的语言、行为和情感,提升 AI 的智能水平。在自然语言处理领域,TikTok 上的大量文本数据可以用于训练语言模型,让模型学习到更自然、更真实的语言表达,从而提高语言生成和理解的准确性。在计算机视觉领域,平台上的海量视频和图像数据可以用于训练图像识别、目标检测等模型,使模型能够识别出更多种类的物体和场景。在个性化推荐系统中,TikTok 的数据可以帮助 AI 更好地了解用户的兴趣爱好和行为习惯,为用户推荐更符合其个性化需求的内容,提高用户的使用体验和平台的粘性。
如果美国真的关闭 TikTok,那对于其 AI 发展来说,无疑是一场巨大的灾难。TikTok 上丰富的数据,就像是 AI 训练的 “营养大餐”,一旦失去,美国 AI 的训练将面临严重的 “营养不良”。
从数据量上看,TikTok 每天产生的海量数据,为 AI 训练提供了充足的 “原料”。失去 TikTok 后,美国 AI 公司将失去这一重要的数据来源,数据量的大幅减少,会使 AI 模型在训练时无法充分学习到各种模式和规律。在图像识别领域,由于缺乏足够的图像数据进行训练,模型可能无法准确识别出更多种类的物体,导致识别准确率下降。在自然语言处理领域,没有了 TikTok 上大量的文本数据,语言模型可能无法理解更自然、更真实的语言表达,生成的文本也会显得生硬、不自然。
数据多样性的缺失,对美国 AI 的影响同样巨大。TikTok 上涵盖生活方方面面的多元内容,能够让 AI 学习到不同领域、不同风格的知识和模式。关闭 TikTok 后,AI 训练数据的多样性将大打折扣,模型可能会变得 “偏科”,只能在某些特定领域表现较好,而在其他领域则表现不佳。AI 可能对时尚潮流、生活趣事等方面的内容理解不足,在为用户推荐相关内容时,就无法满足用户的个性化需求,降低用户体验。
数据实时性的丧失,也会让美国 AI 在应对快速变化的社会和用户需求时,变得反应迟缓。TikTok 的实时数据能够让 AI 及时了解社会热点和用户的最新动态,为用户提供更精准的内容推荐和服务。没有了这些实时数据,AI 就像是一个 “后知后觉” 的人,无法及时跟上时代的步伐。当某个热点事件发生时,AI 可能无法及时捕捉到相关信息,依然为用户推荐过时的内容,导致用户对其失去信任。
TikTok 数据的缺失,还可能使美国 AI 在全球竞争中处于劣势。在当前全球 AI 竞争激烈的背景下,数据是 AI 发展的核心竞争力之一。其他国家和地区的 AI 如果能够持续获得丰富的数据进行训练,而美国 AI 因关闭 TikTok 而数据受限,那么美国 AI 在性能和创新能力上可能会逐渐落后于其他国家和地区的 AI。中国的 AI 企业如果能够充分利用国内丰富的数据资源,不断提升 AI 的性能和创新能力,就可能在全球 AI 市场中占据更大的份额,而美国 AI 则可能面临被边缘化的风险。
美国在 TikTok 关闭问题上,陷入了深深的纠结之中。一方面,出于政治因素的考量,TikTok 在美国面临着诸多限制和威胁。一些政客以 “国家安全” 为由,对 TikTok 进行无端指责,试图通过行政手段将其关闭。另一方面,TikTok 上的数据对美国 AI 发展又具有不可替代的战略意义。一旦关闭 TikTok,美国 AI 发展将面临严重的数据困境,这无疑会削弱美国在全球 AI 领域的竞争力。这种纠结,本质上是政治与科技发展之间的博弈。
从数据的战略价值来看,TikTok 的数据对于美国 AI 发展来说,就像是一座尚未被完全开采的金矿。它不仅能够为美国 AI 提供持续的 “营养”,帮助其在全球 AI 竞争中保持领先地位,还能够推动 AI 技术在各个领域的创新应用,为美国的经济发展和社会进步带来新的机遇。在医疗领域,通过对 TikTok 上的健康相关数据进行分析,AI 可以帮助医生更好地了解疾病的传播趋势和患者的健康状况,从而提供更精准的医疗服务。在教育领域,AI 可以利用 TikTok 上的教育资源和用户学习数据,开发出更个性化的学习工具,提高教育质量。
展望未来,AI 的发展将更加依赖数据的支撑。随着全球对数据安全和隐私保护的重视程度不断提高,数据的获取和使用将面临更加严格的监管。在这样的背景下,TikTok 如何在满足监管要求的前提下,合理地利用自身的数据优势,为全球 AI 发展做出贡献,将是一个值得关注的问题。而美国又将如何在政治和科技发展之间找到平衡,既维护自身的政治利益,又不阻碍 AI 的发展,也将对全球 AI 的未来走向产生深远的影响。对于我们来说,这不仅是一场关于数据和 AI 的技术竞争,更是一次对全球科技发展格局和未来走向的深刻思考。
来源:清风翰影