摘要:埃隆·马斯克与多位AI专家一致认为,现实世界的数据用于有效训练AI模型正在逐渐枯竭。马斯克指出,这种情况在去年达到了顶峰,AI行业需要转向合成数据,即由AI模型自身生成的数据。他强调,合成数据是补充现实数据的唯一途径,并可以促进AI的自我评估和自我学习。许多科
埃隆·马斯克与多位AI专家一致认为,现实世界的数据用于有效训练AI模型正在逐渐枯竭。马斯克指出,这种情况在去年达到了顶峰,AI行业需要转向合成数据,即由AI模型自身生成的数据。他强调,合成数据是补充现实数据的唯一途径,并可以促进AI的自我评估和自我学习。许多科技公司,如微软、Meta、OpenAI和Anthropic,已经开始利用合成数据来训练其AI模型。预计到2024年,60%的AI项目将使用合成数据。然而,依赖合成数据也面临挑战,可能导致模型崩溃、创新性下降以及输出偏见等问题,模型生成的合成数据中的偏见和局限性可能对最终输出产生负面影响。
埃隆·马斯克与多位人工智能(AI)专家达成共识,认为可用于有效训练AI模型的现实世界数据正在逐渐减少。“我们现在基本上已经耗尽了人类知识在AI训练中的累积总和,”马斯克在与Stagwell董事长马克·佩恩的直播对话中表示,该对话于周三晚在X平台播出。他指出,这种情况在去年基本达到了顶峰。
作为AI公司xAI的拥有者,马斯克在十二月的NeurIPS机器学习会议上表达了与OpenAI前首席科学家伊利亚·苏茨克维尔相似的观点。苏茨克维尔建议,AI行业已经达到了他所称的“数据峰值”,他认为这将需要在AI模型开发上进行转型。马斯克提出,AI训练的未来在于合成数据——由AI模型自身生成的数据。“补充[现实世界数据]的唯一方式是使用合成数据,由AI创造[训练数据],”他指出。他强调,通过合成数据,AI能够有效地自我评估并参与自我学习的过程。
许多科技公司,包括微软、Meta、OpenAI和Anthropic等主要参与者,已经开始利用合成数据来训练其旗舰AI模型。根据Gartner的预测,预计到2024年,60%的AI和分析项目所使用的数据将是合成生成的。例如,微软在周三早些时候开源的Phi-4,使用了合成数据和现实世界数据进行训练,类似于谷歌的Gemma模型。Anthropic利用合成数据来增强其表现出色的系统Claude 3.5 Sonnet,而Meta则利用AI生成的数据来完善其最新的Llama系列模型。然而,依赖合成数据进行训练也带来了挑战。一些研究表明,依赖合成数据可能导致模型崩溃,使模型的创新性下降,输出更加偏见,从而最终危及其整体功能。由于模型生成合成数据,因此训练数据中存在的任何偏见和局限性也可能对其输出产生不利影响。
来源:老孙科技前沿