摘要:在全球AI竞赛的浪潮中,DeepSeek的横空出世犹如一颗投入湖面的石子,激起了层层波澜,打破了原有的宁静格局。作为CSDN的高级副总裁及Boolan首席技术专家,李建忠在此文中将穿透“DeepSeek热潮”的迷雾,深度剖析其背后的技术创新逻辑与生态战略布局,
在全球AI竞赛的浪潮中,DeepSeek的横空出世犹如一颗投入湖面的石子,激起了层层波澜,打破了原有的宁静格局。作为CSDN的高级副总裁及Boolan首席技术专家,李建忠在此文中将穿透“DeepSeek热潮”的迷雾,深度剖析其背后的技术创新逻辑与生态战略布局,揭示DeepSeek如何在激烈的全球AI竞争中崭露头角,并预见其对未来AI格局可能带来的深远变革。
DeepSeek :一股能够重新塑造大模型生态的创新力量
春节期间,DeepSeek如同一颗璀璨的新星,在全球科技界引发了强烈的震撼。从“DeepSeek时刻”到“国运级创新”,这些热议话题在欧美科技界及国内不断发酵,西方主流媒体如《自然》、《纽约时报》及《经济学人》等纷纷对其进行报道,全球科学、技术、金融、政府及军事等领域
的专家政要亦给予了高度关注。尽管各方对DeepSeek的评价各有侧重,但其出圈的影响力已然不容忽视。
那么,DeepSeek究竟取得了哪些成就?所谓的“DeepSeek时刻”或“国运级创新”又蕴含着怎样的意义?在我看来,DeepSeek之所以产生如此巨大的影响力,并不仅仅是因为其在AI领域实现了多方面的关键技术创新,更重要的是,它引发了对全球AI生态版图的全面升级与重塑。
以下,我将从两个维度分享对DeepSeek创新的研究与思考:
(一)DeepSeek的关键技术创新
DeepSeek在AI领域实现了诸多突破性的技术创新。从成本效率的提升,到强化学习技术的深度应用,再到开源模式的推广,DeepSeek不断刷新着行业的认知。其创新的算法优化、多头潜注意力机制等,更是为AI技术的发展注入了新的活力。这些技术创新不仅提升了AI模型的性能,更降低了训练成本,为AI技术的普及与应用奠定了坚实的基础。
(二)DeepSeek对于大模型的生态意义
DeepSeek的出现,对全球AI大模型的生态产生了深远的影响。其开源策略打破了传统大型AI公司的闭源模式,促进了知识的共享与技术的交流。同时,DeepSeek的创新技术也为大模型的训练与推理提供了新的思路与方法,推动了AI技术的不断进步。更重要的是,DeepSeek的成功经验为全球AI生态的升级与重塑提供了宝贵的启示与借鉴,引领着AI技术向更加开放、高效、智能的方向发展。
综上所述,DeepSeek以其卓越的技术创新与生态战略布局,在全球AI竞赛中脱颖而出,并有望对未来AI格局产生深远的变革。我们期待着DeepSeek能够继续引领AI技术的发展潮流,为全球AI生态的繁荣与发展贡献更多的力量。
01
DeepSeek:引领AI技术创新的里程碑式突破
开源强化学习:引领大模型推理计算新范式去年9月,OpenAI发布的o1模型在推理计算领域展现了强化学习的卓越能力,但遗憾的是,OpenAI并未开源该技术,技术细节也略显模糊。全球AI界虽然对大模型从预训练向推理计算范式转换充满期待,但一直未能成功复现。直到DeepSeek R1的出现,才打破了这一僵局。
DeepSeek R1在各项国际公认的推理评测指标上均表现出色,实际使用感受也超越了Claude Sonnet 3.5、OpenAI GPT-4o等前沿闭源模型。其推理计算路线更是让业内专家叹为观止,完全基于强化学习(RL),无需监督微调(SFT),也不依赖冷启动数据,成功激发了大模型的推理能力。在R1的训练过程中,DeepSeek的研究人员观察到了模型推理时的“顿悟时刻”,即模型会“喃喃自语”反思错误,这一发现不仅是大模型的突破,也是研究团队的重大进展。
强化学习为何能引领大模型推理计算的新范式?人类智能的学习行为主要分为模仿学习和探索学习。预训练相当于大模型的模仿学习,而在OpenAI o1和DeepSeek R1之前,大模型主要依赖预训练。但这种方式存在局限性,模型只能学会喂给它的数据,无法应对未教过的问题。而强化学习则代表了大模型的探索学习,使模型能够不断优化、自我纠正。因此,只有结合探索学习,大模型才有可能超越人类智能。
DeepSeek和OpenAI o1作为先驱者,将强化学习泛化应用于大模型领域,成为推理计算的核心。这一范式转换因DeepSeek的开源引领而更具影响力,有望使其成为该领域的领导者。此外,DeepSeek在工程领域也表现出色,如从纯强化学习模型R0到结合SFT、基于V3基座模型调教的R1,以及使用R1作为教师模型蒸馏小模型等,都加速了范式转换的进程。
自GPT采用Transformer架构取得成功以来,该架构一直是大模型的标配。然而,Transformer并非完美无缺。DeepSeek在Transformer的基础上进行了多项创新,主要包括多头潜在注意力(MLA)和混合专家模型(MoE)。
MLA由DeepSeek V2原创,主要用于高效推理。它通过改造注意力算子,显著降低了推理时的显存消耗。MLA将每个查询的KV量减少93.3%,在同样容量下存储更多KV缓存,极大提升了推理效率。而MoE则用于高效训练,由多个专家模型组成,通过部分激活给定任务所需的特定专家,降低计算消耗。虽然MoE并非DeepSeek原创,但DeepSeek早在V2之前的代码和数学模型中就采用了MoE架构。在V3模型中,DeepSeek更是大胆使用了256个路由专家和1个共享专家,并创新地采用冗余专家实现负载均衡和训练目标。
面对“芯片限制”,DeepSeek在探索推理范式和模型架构创新的同时,也注重工程优化。从计算、存储、通信等多个层面实施了软硬协同的工程优化策略,如混合精度训练、跨节点通信优化、双流水线机制、DualPipe算法等。甚至采用比CUDA更底层的PTX代码进行底层优化,调整寄存器分配、线程调度和Warp级别优化。
这种围绕模型需求进行软硬协同优化的做法,在一些硅谷大厂技术人员眼中可能被视为“雕虫小技”。然而,技术领域的创新往往始于这些细微之处。回顾计算历史,Hadoop、ARM和TCP/IP等技术的成功都源于对硬件的持续鞭策。因此,有理由相信,如果DeepSeek成为开源大模型领域的标配,其“软件定义硬件”或“模型定义硬件”的理念有望倒逼硬件厂商走出一条颠覆英伟达CUDA生态的道路。
02
DeepSeek:重塑大模型生态的创新力量
DeepSeek引爆大模型成本革命,AI应用与智能体迎来春天DeepSeek无疑在大模型的成本之战中脱颖而出,通过“模型架构创新”与“软硬件协同工程优化”,其大模型训练成本大幅降低,仅为Meta的十分之一,OpenAI的二十分之一。同时,借助最开放的MIT开源协议,以及将推理大模型蒸馏为开源小模型等工程方法,DeepSeek为业界提供了低成本的端侧模型解决方案。
谷歌一次搜索的成本约为0.2美分(0.002美元),而DeepSeek R1的推理成本在百万token输出时仅为16元人民币(2.2美元),V3对话输出百万token更是低至2元人民币。若以每次推理输出约1000token(约500个汉字)计算,DeepSeek的一次推理输出价格约为0.2美分,对话输出则更低,仅为搜索成本的十分之一。这意味着DeepSeek成功将大模型的推理输出成本降至与谷歌搜索相当的水平,为大模型的广泛应用奠定了坚实的基础。
随着大模型成本的急剧下降,AI应用和智能体将迎来爆发式增长。DeepSeek的性价比极高的端侧模型,将使得大模型成为各种应用的基座支撑,GenAI也将迎来应用爆发的临界点。同时,强化学习在推理计算中带来的范式转换,将推动依赖推理能力的智能体AI Agent的加速发展。2025年,无疑将成为大模型应用和智能体爆发的元年。
DeepSeek挑战AI铁三角,重塑产业版图算法、算力、数据一直是AI领域的铁三角。然而,随着大模型成为AI科技树的主流,基于Transformer架构、以预训练为主的模型算法及其展现的Scaling Law,使得算力似乎成为了决定一切的关键因素。AI产业的竞争也一度演变成了“谁拥有GPU越多,谁的AI能力越强”的军备竞赛。
然而,DeepSeek从“后训练”和“预训练”两个阶段对唯算力论提出了挑战。在后训练阶段,随着强化学习成为标配,推理计算占比越来越大,适应预训练模式的GPU大卡集群计算将不再是未来AI算力需求的主流。专为推理优化的芯片,如谷歌TPU、AWS Inferentia、华为昇腾等,在特定负载下能效比显著高于通用GPU。此外,适应多元推理场景的分布式计算、边缘计算、端侧计算等也将崛起,使得推理算力领域呈现多元化竞争格局。
在预训练阶段,DeepSeek通过MoE和MLA等架构改进,使用少于同行10~20倍的算力完成了同等规模的预训练。同时,其使用R1作为教师模型对小模型进行“强化学习推理能力”蒸馏的工程实践,也为模型训练带来了显著红利。DeepSeek从“后训练”和“预训练”两阶段对AI算法的创新,为“算法、算力、数据”构建的AI铁三角带来了新的变量,有望重塑未来AI产业的发展版图。
DeepSeek:开源的长期主义者,创新的摇篮DeepSeek的开源战略同样令人瞩目。其支持商业友好的MIT许可证,开源模型权重,并对下游应用没有限制。在全球排名前十的头部模型中,DeepSeek的开源程度最高,甚至超过了最早扛起开源大旗的Meta的LLaMA。其论文开放的技术细节也极具诚意,模型、评测、原理等都公开透明。
DeepSeek从第一天起就拥抱开源,其创始人梁文锋在接受采访时曾表示:“我们认为当下最重要的,是参与全球科技创新。我们的目标不是快速盈利,而是推动技术前沿的发展,从根本上促进整个生态的成长。”这种对开源精神的深刻领悟和坚定信仰,使得DeepSeek在全球范围内赢得了众多权威专家和大佬的认可和尊重。
DeepSeek的成功不仅点亮了中国技术界最纯粹、最原始的创新火种,更将激励一代又一代的中国技术人为全世界做出独特的创新贡献。致敬DeepSeek,期待其在未来继续引领AI领域的新一轮变革。
华远系统是致力于人工智能(AI算法以及流媒体技术),信息软件技术,新能源、物联网等领域的集成商,在智慧社区,智慧园区,智慧停车,充电桩(储能充电站/光储充)及充电桩软件管理平台,储能系统集成,车联网有整套解决方案以及成功的项目案例。
来源:华远系统