Elon Musk:AI训练去年已用光全球所有数据 需自行生成数据继续训练

B站影视 2025-01-14 16:16 3

摘要:Elon Musk最近提到,人工智能公司现正面临一个日益严峻的挑战:人类知识数据逐渐枯竭。这种情况在去年已经显现。他建议,科技公司应采用由AI模型生成的“合成”数据,以填补数据不足,进一步强化系统。然而Elon Musk也警告,依赖合成数据可能导致“模型崩溃”

Elon Musk最近提到,人工智能公司现正面临一个日益严峻的挑战:人类知识数据逐渐枯竭。这种情况在去年已经显现。他建议,科技公司应采用由AI模型生成的“合成”数据,以填补数据不足,进一步强化系统。然而Elon Musk也警告,依赖合成数据可能导致“模型崩溃”,即AI系统性能下降的风险。

惟Elon Musk在接受广告集团Stagwell董事长Mark Penn的直播采访时表示,依赖合成数据可能导致AI出现幻觉,因为届时已经无从稽考到底数据来源纯属幻觉或是真实答案。

Watch Stagwell's CEO Mark Penn interview Elon Musk at CES!https://t.co/BO3Z7bbHOZ

— Live (@Live)January 9, 2025

目前OpenAI的GPT-4等AI模型主要依赖从互联网收集的庞大数据进行训练,通过分析语言模式来预测句子中的下一个词语。随着数据日渐枯竭,Elon Musk认为,解决之道在于运用AI自行生成的合成数据(Synthetic data)。Elon Musk指AI可以撰写文章或提出论点,并为自己评分,通过自我检讨学习完善模型,从而缓解数据来源不足的困境。

Microsoft、Facebook母公司Meta、OpenAI和Anthropic等多家科技巨头,早已开始尝试利用合成数据训练AI模型。根据科技市场调查调机构Gartner估算,2024年约60%的AI和数据分析项目已开始使用合成数据作为核心资源。例如1月8日Microsoft开源的AI模型“Phi-4”就采用了结合合成数据与现实世界数据训练。Google的“Gemma”模型也采用了类似策略,而Anthropic则通过部分合成数据,开发出“Claude 3.5 Sonnet”。至于Meta则运用AI生成数据微调其最新推出的Llama系列模型。

尽管如此,专家对这一趋势持审慎态度。他们指出,倘若过度依赖合成数据,可能会放大既有偏差与错误,进而影响AI的生成结果准确性,甚至削弱模型的实际应用效果。因此如何在有限的数据资源中平衡创新与可靠性,已成为AI发展道路上亟待破解的重要课题。

图片来源:Scientific American

数据源:The Guardian、Fortune、Live@X

来源:十轮网

相关推荐