摘要:在数据稀缺的新时代,一个看似异想天开的想法正逐渐获得重视:AI是否有可能仅依靠其他AI生成的数据进行训练?这一思路并非空穴来风。随着真实世界新数据的获取难度日益增加,诸如Anthropic、Meta和OpenAI等科技巨头已开始探索这一路径。Anthropic
在数据稀缺的新时代,一个看似异想天开的想法正逐渐获得重视:AI是否有可能仅依靠其他AI生成的数据进行训练?这一思路并非空穴来风。随着真实世界新数据的获取难度日益增加,诸如Anthropic、Meta和OpenAI等科技巨头已开始探索这一路径。Anthropic利用合成数据训练了其旗舰模型Claude 3.5 Sonnet,Meta对Llama 3.1模型进行了微调,而OpenAI则据传正从其推理模型o1中汲取合成数据以训练Orion。但为何AI需要数据?它究竟需要何种数据?合成数据能否真正替代真实数据?
AI系统,作为统计机器,通过大量实例的学习来识别模式并做出预测。在这个过程中,标注扮演着至关重要的角色。标注,简而言之,即为数据添加说明,指引模型理解数据的含义。以图片分类为例,向模型展示大量标注为“厨房”的厨房图片,模型将在训练中将“厨房”与厨房特征相联系。然而,若厨房图片被错误标注为“奶牛”,模型亦会受其误导,凸显标注的准确性至关重要。
随着AI需求的激增,标注服务市场蓬勃发展。据Dimension市场研究公司预测,该市场当前价值8.382亿美元,未来十年有望突破103.4亿美元大关。数百万计的标注工作者,无论薪酬高低,都在为AI的发展贡献着力量。然而,这一行业的现状亦存在诸多问题,如标注者可能存在的偏见、错误以及高昂的人力成本。
从人文与务实角度出发,寻找人工标注的替代方案迫在眉睫。人类的标注速度有限,且易受偏见和错误影响。同时,随着数据版权意识的增强,越来越多的数据所有者选择屏蔽数据,导致数据获取愈发困难。全球排名前1000位的网站中,超过35%已屏蔽OpenAI的Web爬虫。一项研究发现,用于模型训练的主要数据集中,约25%的“高质量”数据源已受限。据Epoch AI预测,若当前趋势持续,到2032年,开发人员或将面临无数据可训练生成式AI模型的困境。加之对版权诉讼和不良内容的担忧,AI供应商正面临前所未有的挑战。
在此背景下,合成数据作为潜在解决方案备受瞩目。然而,其能否真正替代真实数据,仍需时间与实践的检验。
面对数据标注的繁琐、真实数据获取的艰难以及高昂的成本,合成数据似乎为我们打开了一扇新的大门。Os Keyes,华盛顿大学研究新兴技术伦理影响的博士生形象地比喻道:“如果说‘数据是新石油’,那么合成数据就是生物燃料,它可被创造,且没有真实事物的负外部性。”这一理念正引领AI行业迈向新的训练模式。
以Writer公司为例,他们推出的Palmyra X 004模型几乎完全依赖于合成数据进行训练,开发成本仅为70万美元,远低于同等规模的OpenAI模型所需的460万美元。微软、谷歌等科技巨头也纷纷将合成数据融入其模型训练中,如微软的Phi模型和谷歌的Gemma模型。英伟达更是发布了一系列旨在生成合成训练数据的模型,而Hugging Face则推出了据称是迄今为止最大的合成文本AI训练数据集。合成数据生成已成为一项蓬勃发展的业务,预计到2030年,其价值将达到23.4亿美元。Gartner预测,今年,人工智能和分析项目中使用的数据将有60%是合成的。
合成数据不仅解决了数据稀缺的问题,还降低了数据获取的成本。Allen人工智能研究所高级研究科学家Luca Soldaini指出,合成数据技术能够生成那些难以通过Web爬取或内容许可获得的训练数据。例如,Meta在训练其视频生成器Movie Gen时,就使用了Llama 3为训练数据中的视频片段创建字幕,然后结合人类智慧进行改进和细节添加。
然而,合成数据并非万能钥匙。与所有AI技术一样,它也面临着“垃圾进垃圾出”的问题。如果用于训练模型的基础数据存在偏差或局限性,那么合成数据的输出结果也会受到相应影响。莱斯大学和斯坦福大学的研究人员在2023年的一项研究中发现,过度依赖合成数据进行训练会导致模型的“质量或多样性逐渐下降”。采样偏差,即合成数据不能很好地反映真实世界,会导致模型的多样性在经过多代训练后恶化。尽管混入一些真实世界的数据有助于缓解这一问题,但合成数据的风险仍不容忽视。
Keyes认为,对于像OpenAI o1这样的复杂模型,合成数据可能导致更难发现的幻觉产生。这些幻觉会降低使用这些数据训练出来的模型的准确性,尤其是在幻觉来源不易识别的情况下。复杂的模型会生成幻觉,而由复杂模型产生的数据也会包含幻觉。这可能导致模型胡言乱语,甚至引发模型功能的严重退化。
《自然》杂志上发表的一项研究揭示了使用错误百出的数据训练出来的模型是如何进一步产生更多错误数据的,以及这种反馈循环如何导致后代模型的性能下降。研究人员发现,随着模型一代一代地训练,它们会失去一些深奥的知识,变得更加泛泛而谈,并经常生成与所提问题无关的答案。图像生成器等其他类型的模型也无法幸免于这种崩溃。
Soldaini同样认为,“原始”合成数据是不可信的。要避免训练出健忘的聊天机器人和同质化的图像生成器,就必须对合成数据进行彻底的审查、整理和过滤。最好能与新获取的真实数据搭配使用,就像使用其他数据集一样。如果做不到这一点,最终可能导致模型崩溃,即模型的“创造性”降低,输出结果更加偏颇,严重影响其功能。
尽管合成数据存在诸多挑战和风险,但其潜力不容忽视。为了安全有效地使用合成数据,我们需要采取一系列应对策略。
首先,研究人员需要对生成的数据进行仔细检查,迭代生成过程,并采取保障措施去除低质量的数据点。合成数据管道并非一台自我完善的机器,在将其输出用于训练之前,必须进行仔细的检查和改进。
其次,我们需要结合真实数据和合成数据进行训练,以平衡数据的多样性和准确性。真实数据能够提供真实世界的反馈和校正,有助于缓解合成数据可能带来的偏差和幻觉问题。
此外,随着技术的不断发展,我们有望开发出更加智能和高效的合成数据生成方法。这些方法将能够更好地模拟真实世界的数据分布和特征,从而提高合成数据的质量和可靠性。
然而,即使在技术成熟之后,我们仍然需要人类来确保模型的训练不会出错。至少在可预见的未来,人类监督在AI模型训练中仍扮演着不可或缺的角色。
综上所述,合成数据为AI训练带来了新的曙光和机遇,但同时也伴随着诸多挑战和风险。我们需要审慎地看待合成数据的作用和局限性,采取有效的应对策略来确保其安全有效地应用于AI训练中。只有这样,我们才能充分发挥合成数据的潜力,推动AI技术的持续发展和创新。
华远系统是致力于人工智能(AI算法以及流媒体技术),信息软件技术,新能源、物联网等领域的集成商,在智慧社区,智慧园区,智慧停车,充电桩(储能充电站/光储充)及充电桩软件管理平台,储能系统集成,车联网有整套解决方案以及成功的项目案例。
来源:华远系统