摘要:近日,李飞飞等斯坦福大学和华盛顿大学研究人员以不到50美元的云计算费用,成功训练了一个名为s1的人工智能推理模型。成本之低,令人咋舌,而s1的表现却毫不逊色于OpenAI的o1和DeepSeek的R1等尖端推理模型。在数学和编码能力测试中,s1展现出了与之相当
(图片来源:摄图网)
李飞飞是业界公认的国内最顶尖的AI专家,被誉为“AI教母”。
据媒体报道,近日,李飞飞等斯坦福大学和华盛顿大学研究人员以不到50美元的云计算费用,成功训练了一个名为s1的人工智能推理模型。成本之低,令人咋舌,而s1的表现却毫不逊色于OpenAI的o1和DeepSeek的R1等尖端推理模型。在数学和编码能力测试中,s1展现出了与之相当的实力。
研究人员表示,李飞飞团队通过蒸馏法,从谷歌的推理模型Gemini 2.0 Flash Thinking Experimental中提炼出了s1。使用了16个英伟达H100 GPU,仅仅进行了26分钟的训练,便诞生了一个能与顶尖推理模型相媲美的32B推理模型。这种方法的精髓在于如何有效地传递知识,使得小模型在保持大模型推理能力的同时,能够在资源消耗上展现出极大的优越性。
s1的诞生,标志着高效AI模型训练新时代的到来。s1所展现出的价格优势,背后折射出的是未来AI领域的一个重要趋势:大模型的训练和应用将愈发平民化,不再遥不可及。
s1证明了不用算力,只要蒸馏的数据质量足够高,即便是在很低的成本下,也能够训练出具备高质量推理能力的模型。该发现简直颠覆了人们对AI训练的传统认知,为AI技术的普及和应用开辟了更广阔的空间。
此前DeepSeek也曾发布一系列DeepSeek-R1模型,探索了将R1的推理能力蒸馏到更小模型中的潜力。通过知识蒸馏技术,DeepSeek成功地将大模型的推理能力传递给小模型,实现了小模型在推理任务上的显著提升。
全球大模型领域领先企业及产品布局情况
当前全球AI大模型行业正处于技术创新与商业化加速推进的阶段。OpenAI、Google、微软等美企处于领先地位,主导生成式AI、自然语言处理等领域,模型如GPT系列和PaLM广泛应用。
大语言模型行业发展趋势分析
随着人工智能技术的不断进步,大语言模型已成为推动自然语言处理领域革新的关键力量,未来大语言模型发展趋势主要有四大方向,其一为,这些模型通过不断扩展规模来增强其学习能力,同时在效率上也取得了显著提升,使得处理速度更快且成本更低。其二,多模态能力的发展让模型不仅能理解文本,还能处理图像、声音等多种类型的数据,极大地拓宽了应用范围。其三,跨语种能力的进步则打破了语言障碍,使得模型能够服务于全球更广泛的用户群体。其四,可解释性和透明度的增强,使用户和监管者能够更好地理解和信任模型的决策过程。针对特定行业的应用深化,使得大语言模型能够更精准地服务于医疗、法律、金融等专业领域,提供定制化的解决方案。这些趋势共同塑造了大语言模型的未来发展方向,预示着一个更加智能、高效、透明且多能的时代即将到来。
国内外主要大语言模型数据集
得益于开源共创的互联网生态,海外已有大量优质、结构化的开源数据库,文本来源既包含严谨的学术写作、百科知识,也包含文学作品、新闻媒体、社交网站、流行内容等,更加丰富的语料数据能够提高模型在不同情景下的对话能力。而受制于搭建数据集较高的成本以及尚未成熟的开源生态,国内开源数据集在数据规模和语料质量上相比海外仍有较大差距,数据来源较为单一,且更新频率较低,从而导致模型的训练效果受限。因此,大模型厂商的自有数据和处理能力构成模型训练效果差异化的核心。受益于移动互联网时代积累的海量用户、应用和数据,互联网企业在自有数据上更具特色化和独占性,叠加更强大的数据处理能力,从而能够通过数据优势带来模型训练成果的差异。例如,阿里在研发M6时,构建了最大的中文多模态预训练数据集M6-Corpus,包含超过1.9TB图像和292GB文本,涵盖百科全书、网页爬虫、问答、论坛、产品说明等数据来源,并设计了完善的清洁程序以确保数据质量。百度ERNIE模型的训练数据集中也运用了大量百度百科、百度搜索以及百度知识图谱等生态内数据,通过更高质量的数据保障了模型的训练效果。
中国科学院院士、清华大学人工智能研究院名誉院长张钹在 isc.ai2024第十二届互联网安全大会上指出,大语言模型具有强大的语言生成能力、人机自然交互能力和举一反三能力,但存在 “幻觉” 缺陷。未来大模型有与人类对齐、多模态生成、AI agent(智能体)、具身智能四个发展方向。
阿里云副总裁、产业智能首席科学家张磊在 2024AI + 数字笔迹创新应用发展论坛上提出,大模型的应用发展可分为三个阶段,分别是没有行业属性的通用应用阶段、具备行业属性的应用阶段、打破固有生产关系的阶段。大模型产业中长期有大模型越来越多的普惠效应和基础设施供给的极化效应两个趋势。
中国互联网协会人工智能工委会主任委员、北京大学教授黄铁军表示,未来视觉、听觉、具身、行动等智能会逐渐实用化,大模型的规模会突破 1 万亿、10 万亿、百万亿甚至更大。
前瞻经济学人APP资讯组
更多本行业研究分析详见前瞻产业研究院《全球及中国大模型产业发展前景与投资战略规划分析报告》
同时前瞻产业研究院还提供产业新赛道研究、投资可行性研究、产业规划、园区规划、产业招商、产业图谱、产业大数据、智慧招商系统、行业地位证明、IPO咨询/募投可研、专精特新小巨人申报、十五五规划等解决方案。如需转载引用本篇文章内容,请注明资料来源(前瞻产业研究院)。
更多深度行业分析尽在【前瞻经济学人APP】,还可以与500+经济学家/资深行业研究员交流互动。更多企业数据、企业资讯、企业发展情况尽在【企查猫APP】,性价比最高功能最全的企业查询平台。
来源:前瞻网