摘要:近期,中国杭州深度求索人工智能基础技术研究有限公司推出AI语言大模型DeepSeek,受到用户热烈欢迎。2025年1月20日,DeepSeek-R1发布上线,7天内用户超过1亿。ChatGPT从发布到达到相同的用户规模用时两个月。
李国杰
作者李国杰肖像画。 张武昌绘
受到热烈欢迎
业界纷纷部署
近期,中国杭州深度求索人工智能基础技术研究有限公司推出AI语言大模型DeepSeek,受到用户热烈欢迎。2025年1月20日,DeepSeek-R1发布上线,7天内用户超过1亿。ChatGPT从发布到达到相同的用户规模用时两个月。
GitHub是全球最大的代码托管网站,GitHub的星数即GitHub平台项目页面上的Star按钮被用户主动点击的次数,代表受欢迎程度和社区认可度。目前,DeepSeek的GitHub星数已超越了同类大模型的GitHub星数。
值得一提的是,DeepSeek赢得一批国际知名企业特别是全球人工智能企业的青睐。微软率先宣布将DeepSeek-R1模型添加到云平台Azure AI Foundry,开发者可用于构建基于云的应用程序和服务。之后,亚马逊云科技、英伟达、超微半岛等公司宣布在其AI服务平台上部署DeepSeek-R1模型。
实现技术突破
走出发展新路
DeepSeek受到赞誉和认可,但也有舆论认为,与ChatGPT实现从“0到1”的突破不同,DeepSeek只是实现了从“1到N”的扩展。
对此,笔者并不认同,因为这种看法不符合人工智能研究的特点及创新发展的历史轨迹。人工智能创新不同于物理学等基础理论研究。物理学中的牛顿定律和爱因斯坦发现的相对论是从“0到1”的突破,但人工智能是一个没有严格定义的研究领域,并不存在“智能”和“不智能”之间“0”和“1”的界限,只有智能化水平不断提高的创新发展过程。
笔者认为,DeepSeek推出的V3和R1模型既是技术上的重大突破,也是发展模式上的重大创新,是人工智能发展史上重大事件,可以与OpenAI发布ChatGPT3.5相提并论。DeepSeek以高效率、低成本的推理模型和开源的商业模式走出一条发展人工智能的新路。
坚持历史视角
准确看待价值
准确认识DeepSeek的价值和贡献,必须坚持历史视角,将其放在人工智能创新发展的历程中来看待。
1943年,美国科学家麦卡洛克和皮茨提出神经元计算模型,开创了神经网络研究的先河,开启人工智能创新发展的漫长探索历程。本世纪第二个十年,基于神经网络模型的第三波人工智能浪潮涌起并接连迎来多个里程碑式事件。
2012年,在ImageNet大规模视觉识别挑战赛上,辛顿等人创建的AlexNet卷积神经网络模型大放异彩。这被看作第三波人工智能浪潮的起点。在此4年之后,DeepMind研制的AlphaGo围棋程序战胜世界冠军,引起了全世界的瞩目。
2017年,谷歌的几名专家提出Transformer模型,提出自注意力机制,成为深度学习的主流模型。
2018年,DeepMind发布了AlphaFold,在蛋白质结构预测中展示出惊人的能力,开辟了AI for Science(人工智能驱动科技创新)的新方向。
2022年,OpenAI发布ChatGPT3.5,引领了以大语言模型(LLM)为标志的生成式人工智能新浪潮。
近日,DeepSeek上线,成为上述重大事件之后,第三波人工智能创新发展浪潮的又一重大事件。
采用创新算法
提升运行效率
DeepSeek广受欢迎,是因为在模型算法和系统软件层次都有重大创新。那么这些重大创新具体体现在哪些方面呢?
算法创新是DeepSeek的重要贡献之一。DeepSeek大模型采用新的混合专家架构(MoE),每一层有256个路由“专家”和1个共享“专家”。在每次前向传播过程中,只激活一小部分“专家”来进行计算。虽然DeepSeek-V3是一个671B参数的大模型,但模型的任何函数调用和传递只使用约37B参数,使其训练成本大为降低。
在算法层面,DeepSeek还有一个降低成本的重大创新,即低秩注意力机制(也称为多头潜在注意力机制)。这一发明对巨大的注意力机制矩阵进行了压缩,减少参与运算的参数数量,大大降低了显存占用,由此提升了模型运行效率。
减少推理成本
降低开发门槛
在推理层面的创新是DeepSeek另一个重大贡献。OpenAI发布的o1推理模型是闭源的,其他企业无法了解OpenAI是如何基于预训练模型构建推理模型的。通过开源方式,DeepSeek揭示了实现低成本推理的奥秘,为发展推理模型开辟了一条新路。DeepSeek揭示了一个事实,即推理模型的开发比想象中更为简单,门槛实际上并不是那么高,各行各业均可以做。
传统的强化学习需要大量标注数据,成本很高。DeepSeek另辟蹊径,以全自动的强化学习取代监督微调和基于人类反馈的强化学习,用机器直接推测的方式来预测分数,显著提高了强化学习的效率。
DeepSeek通过工程创新和优化,降低了推理成本,打破了人工智能领域长期以来对高算力的迷信,对人工智能产业的发展具有重大意义。
便捷本地部署
促进技术应用
DeepSeek在模型算法和工程优化方面所进行的系统级创新,为在受限资源下探索通用人工智能开辟了新路。传统大模型遵循的是一条“由通到专”的人工智能发展思路,与之相反,DeepSeek追求的是“由专到通”的人工智能发展路径,通过引领人工智能技术生态的形成,迈向全社会分享的通用人工智能之路。
虽然以OpenAI为代表的生成式人工智能红红火火,但多数企业不敢将自己的数据交给私有AI平台生成自己的垂直模型,因为担心提交的数据会泄露自己的技术机密。这可能是导致人工智能在很多行业难以落地和应用的重要原因之一。
DeepSeek的出现化解了上述难题。人工智能领域的研究者可以将DeepSeek提供的小而精的模型下载到本地,即使断网也可以“蒸馏”出高效率的垂直模型,从而增强当地人工智能创新发展的能力。
人工智能不同于资本密集型和经验积累型的集成电路产业,不仅要“烧钱”,而且要“烧脑”,本质上是比拼人的智力的新兴产业。因此,人工智能产业具有明显的不对称性,一个具有100多个聪明头脑的小企业完全可以与市值上万亿美元的龙头企业展开有力竞争。
突破规模法则
引发行业思考
规模法则是指人工智能模型在推理阶段(而非训练阶段)通过增加计算资源即算力来提升性能。在AI领域,规模法则被认为是“公理”,俗称“大力出奇迹”,OpenAI等龙头企业和美国的AI投资界将其当成制胜法宝。但是,规模法则不是像牛顿定律一样经过无数次验证的科学定律,而是OpenAI等公司近几年研制大模型的经验归纳。规模法则从科学研究的角度看,属于对技术发展趋势的猜想,从投资的角度看,属于对某种技术路线的押注,包含难以克服的局限性。
人工智能是对未来技术的探索,探索路径存在多种可能。人工智能本身也存在多元化的目标,探索的道路上有很多高山需要去攀登,攀登一座高山的路径也不止一条。把一条道路或猜想当成科学“公理”本身就不是科学的态度。
规模法则的倡导者,常以“强化学习之父”理查德·萨顿的文章《苦涩的教训》作为追求高算力的依据:“研究人员曾一次又一次试图通过精巧的工程设计来提升性能,但最终都败给了简单粗暴的‘加大算力’方案,历史证明,通用方法总是在AI领域胜出。”
最近两年,萨顿本人对规模法则做了深刻反思。他指出,虽然规模法则在提升模型性能方面确实有效,但它并不是解决所有问题的万能钥匙。AI系统不仅需要具备强大的计算能力,还需要具备持续学习、适应环境、理解复杂情境等能力,而这些往往难以通过简单地增加算力来实现。
图灵奖得主杨立昆和OpenAI前首席科学家伊利亚·苏茨克维等人甚至直言,规模法则已触及天花板。
DeepSeek的出现,促使全球AI界严肃地思考这一技术发展路线问题:是继续烧钱豪赌,还是另辟蹊径,在算法优化上下更多功夫?
DeepSeek的成功在一定程度上表明“小力也能出奇迹”“算法和模型架构优化也能出奇迹”。随着时间的推移,AI扩展方法也在发生变化:最初是模型规模,后来是数据集大小和数据质量,目前是推理时间和合成数据。
算力不容忽视
走好绿色之路
DeepSeek-R1是推理模型,从某种意义上说,它把业界对人工智能的关注重点从规模法则转移到推理计算上。
如果就此断言规模法则已经走到尽头,也是没有根据的。与人脑的神经连接复杂性相比,现在的人工神经网络至少还有上百倍的差距,继续扩大神经网络的规模和增加训练的数据量是非常必要的,但能否取得与投入相称的回报,还要看今后的实际效果。
DeepSeek的成功并没有否定算力在人工智能发展中的关键作用。实际上,由于用于推理的设备大幅多于训练设备,所以推理所需要的算力将来会成为主要需求。通过算法优化提高模型的效率十分重要,算力是解决人工智能问题的必要条件,不容忽视,而走节省算力的绿色发展之路是我们的必然选择。
(作者李国杰为中国工程院院士,长期从事计算机体系结构、并行算法、人工智能等研究,获首届何梁何利基金科技进步奖,主持取得的科研成果获国家科学技术进步奖一等奖等。本文由尹振茂根据作者表述整理)
中国科协科学技术传播中心、陈家庚科学奖基金会与本报合作推出
来源:人民网