DeepSeek的爆火将如何重塑AI产业?

B站影视 2025-02-05 19:37 3

摘要:近期,人工智能领域杀出一匹黑马——DeepSeek。2024年12月,DeepSeek-V3发布,性能对标业界领先的闭源模型GPT-4o与Claude-3.5-Sonnet;2025年1月,DeepSeek-R1发布,任务表现媲美OpenAI-o1。1月27日

近期,人工智能领域杀出一匹黑马——DeepSeek。2024年12月,DeepSeek-V3发布,性能对标业界领先的闭源模型GPT-4o与Claude-3.5-Sonnet;2025年1月,DeepSeek-R1发布,任务表现媲美OpenAI-o1。1月27日,DeepSeek APP上线半月便登顶中美苹果应用商店免费下载榜,超越ChatGPT。DeepSeek的爆火将如何重塑AI产业?

DeepSeek为何迅速出圈?

DeepSeek官网数据显示,在性能表现方面,DeepSeek-R1在数学、编程等任务上,具备与国际巨头一较高下的实力。在AIME2024数学竞赛中,DeepSeek-R1以79.8%的成绩超越OpenAI-o1的79.2%;在MATH-500基准测试中,DeepSeek-R1以97.3%的高分超越OpenAI-o1的96.4%。在编程领域,DeepSeek-R1在知名编程竞赛平台Codeforces的评分超越了96.3%人类程序员;在SWE-benchVerified基准测试中,DeepSeek-R1以49.2%的分数超越OpenAI-o1的48.9%。

不仅如此,与ChatGPT相比,DeepSeek专注于中文自然语言处理,在中文语义理解、文本生成等方面更具优势,并在多项中文NLP基准测试中均名列前茅。市场层面,DeepSeek深耕中国市场,针对中国用户的使用习惯和需求进行深度优化,推出的产品和服务更加接地气。

DeepSeek有哪些技术亮点?

训练成本降低和计算效率提升是DeepSeek-V3模型的重要突破。模型架构方面,V3的采用了优于传统专家混合模型(MoE)的DeepSeekMoE,以及优于传统多头注意力(MHA)的DeepSeekMLA(多头潜在注意力)。前者采用更细粒度的专家,并设部分共享专家,引入动态路由机制,实现跨节点的专家并行,提升计算效率,减少专家负载不平衡问题。后者通过低秩联合压缩注意力键和值,显著降低推理过程中的键值缓存,同时保持与标准多头注意力相当的性能,减少计算量,提升推理效率。训练目标方面,相比于传统大模型回答用户需求时只预测下一个token,V3采用多token预测(MTP)目标,在每个位置上预测多个未来token,增加训练信号密度,提高数据效率、生成速度和整体性能。此外,V3首次在超大规模模型上验证了FP8混合精度训练框架的有效性,实现了加速训练并减少内存使用和通信开销。

R1的创新之处在于纯粹通过强化学习实现推理能力的自主进化,而不依赖任何监督微调数据。在R1之前,业界大模型普遍依赖于RLHF(基于人类反馈的强化学习),而R1系列模型放弃了RLHF中的HF(人类反馈)部分,只留下RL(强化学习)部分。采用GRPO算法,通过组内奖励对比优化策略,避免传统RL中复杂价值模型的依赖,模型在训练中自发涌现出“反思”、“多步验证”等复杂推理行为。此外,R1还采用“冷启动+多阶段RL”策略,提升模型在复杂任务中的表现,保持输出的可读性和语言的一致性。

DeepSeek为AI行业带来哪些颠覆?

DeepSeek以更低的成本、更高的模型性能和对芯片性能更低的要求,以及开源战略,为AI行业带来了“鲶鱼效应”,同时也引发了市场对科技公司在AI基础设施中巨额投入必要性的质疑。近期,国内外的其他大模型厂商纷纷采取降价、免费等措施,并紧急上线新模型应对DeepSeek的冲击。稍早前,多家美国科技巨头宣布将在2025年加强在AI基础设施上的投入。相比之下,DeepSeek摒弃了盲目追求算力“军备竞赛”,转而专注于提升模型的效率和实用性。推理成本上,OpenAIo1每百万输入和百万输出token分别收取15美元和60美元,而DeepSeekR1同样输入与输出的价格分别只要0.55美元和2.19美元。这意味着DeepSeekR1以不到十分之一的成本达到了GPT-o1级别的表现。从市场格局来看,DeepSeek的崛起打破了国外巨头在AI领域的垄断地位,为中国AI企业树立了榜样,也推动了全球AI产业的多元化发展。应用场景方面,DeepSeek将AI技术应用于更广泛的场景,赋能传统行业转型升级,推动了AI技术的普惠化发展。

人工智能领域未来的发展仍是星辰大海,DeepSeek技术上的突破不仅带来了成本的降低和资源使用效率提高,同时也进一步拓宽了AI应用场景,降低了企业训练与推理的门槛,人工智能的商业化可以进展更快。从这一角度而言,模型的复杂程度和对算力的总需求可能会进一步提升。这正如“杰文斯悖论”所阐述的观点,当蒸汽机效率大幅提升后,煤炭消耗总量不降反增,即技术进步在提高资源使用效率的同时,成本下降刺激的资源需求增长可能超过效率提升带来的资源节约。

来源:富国基金

相关推荐