摘要:埃隆·马斯克在与斯塔戈威尔董事长的讨论中指出,当前用于训练人工智能模型的真实世界数据已接近枯竭。他表示,这种状况在去年达到了顶峰,反映了人工智能领域对数据来源局限性的担忧。马斯克认为,未来人工智能的发展将依赖合成数据,即由人工智能模型自生成的数据,这一观点与前
埃隆·马斯克在与斯塔戈威尔董事长的讨论中指出,当前用于训练人工智能模型的真实世界数据已接近枯竭。他表示,这种状况在去年达到了顶峰,反映了人工智能领域对数据来源局限性的担忧。马斯克认为,未来人工智能的发展将依赖合成数据,即由人工智能模型自生成的数据,这一观点与前OpenAI首席科学家伊利亚·苏茨克弗的“数据巅峰”理论相呼应。多家科技公司如微软、Meta和OpenAI已开始使用合成数据进行训练。尽管合成数据可以显著降低开发成本,但也存在潜在缺陷,如模型崩溃、创造力降低及输出偏见等问题,这些问题可能影响模型的有效性。
埃隆·马斯克与其他人工智能专家一致认为,目前可用于训练人工智能模型的真实世界数据已经稀缺。在周三晚间与斯塔戈威尔董事长马克·佩恩进行的直播讨论中,马斯克表示:“我们基本上已经耗尽了人工智能训练中的人类知识的累积总和。”他指出,这种情况在去年达到了顶峰。马斯克的观点反映了人工智能社区对当前数据来源局限性的日益关注。
马斯克的评论与前OpenAI首席科学家伊利亚·苏茨克弗在12月的NeurIPS机器学习会议上分享的见解相呼应。苏茨克弗强调,人工智能行业已经达到了他所称的“数据巅峰”,这意味着可用训练数据的缺乏将迫使模型构建方式的改变。马斯克提出,人工智能发展的未来在于合成数据,即由人工智能模型自身生成的数据。他解释道:“补充[真实世界数据]的唯一方法是使用合成数据,由人工智能创造[训练数据]。”这种自我学习的过程使人工智能能够增强其能力。
包括微软、Meta、OpenAI和Anthropic在内的几家主要科技公司,已经开始利用合成数据来训练其领先的人工智能模型。根据Gartner的估计,2024年用于人工智能和分析项目的数据中,约有60%将是合成生成的。例如,微软在周三早些时候开源的Phi-4模型,结合了合成数据和真实世界数据进行训练,这与谷歌的Gemma模型类似。Anthropic在开发其高性能系统Claude 3.5 Sonnet时也融入了合成数据。此外,Meta利用人工智能生成的数据对其最新的Llama系列模型进行了优化。尽管在合成数据上进行训练可以显著节省成本——人工智能初创公司Writer报告称,其Palmyra X 004模型的开发成本仅为70万美元,而与之相当的OpenAI模型估计为460万美元——但也存在显著的缺陷。研究表明,依赖合成数据可能导致模型崩溃,降低创造力并增加输出中的偏见,从而最终危及模型的有效性。如果用于创建这些模型的训练数据中存在偏见,那么最终生成的输出很可能会反映出这些缺陷。
来源:老孙科技前沿