DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求

B站影视 2025-02-07 04:37 2

摘要:DeepSeek(深度求索)公司成立于2023年5月,是一家致力于实现AGI(Artificial General Intelligence,通用人工智能)的创新型科技公司,专注于开发先进的大语言模型和相关技术。DeepSeek由知名量化资管巨头幻方量化创立,

DeepSeek成立不到两年颠覆开源大模型格局,性能对标海外

DeepSeek(深度求索)公司成立于2023年5月,是一家致力于实现AGI(Artificial General Intelligence,通用人工智能)的创新型科技公司,专注于开发先进的大语言模型和相关技术。DeepSeek由知名量化资管巨头幻方量化创立,幻方量化创始人梁文峰在量化投资和高性能计算领域具有深厚的背景和丰富的经验。

2024年5月,DeepSeek-V2发布,成为全球最强开源通用MoE模型。DeepSeek独创Attention结构MLA(一种新的多头潜在注意力机制)、稀疏结构DeepSeek-MoE在大模型竞技场(LMSYS)位列全球开源模型第一名,依靠创新结构,将推理成本降低近百倍。

2024年12月,DeepSeek-V3发布,性能对齐海外领军闭源模型。该模型在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型,并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。据官方技术论文披露,V3模型的总训练成本为557.6万美元,对比GPT-4o等模型的训练成本约为1亿美元。

2025年1月,DeepSeek-R1发布,性能对标OpenAI-o1正式版。DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI-o1正式版。同时DeepSeek开源R1推理模型,允许所有人在遵循MIT License的情况下,蒸馏R1训练其他模型。

DeepSeek模型已成为全球现象级大模型

DeepSeek下载量占据140多个国家榜首。2月1日消息,据彭博社报道, DeepSeek的人工智能助手在140个市场下载次数最多的移动应用程序排行榜 上名列前茅,其中印度占据了新用户的最大比例。据Appfigures数据(不 包括中国的第三方应用商店),这款推理人工智能聊天机器人于1月26日升 至苹果公司应用商店的榜首,此后一直占据全球第一的位置。

国外大型科技公司已上线部署支持用户访问DeepSeek-R1模型。1月30日, 微软宣布DeepSeek-R1模型已在Azure AI Foundry和GitHub上提供。1月31 日,英伟达宣布DeepSeek-R1模型已作为NVIDIA NIM微服务预览版在英伟达 面向开发者的网站上发布;同日亚马逊宣布,客户现已可以在Amazon Bedrock和Amazon SageMaker AI中部署DeepSeek-R1模型。

硅基流动和华为云宣布上线DeepSeekR1/V3推理服务。2月1日,华为云 官方发布消息,硅基流动和华为云团队联合首发并上线基于华为云昇腾云 服务的DeepSeekR1/V3推理服务。该服务具备以下特点:1)得益于自研推 理加速引擎加持,硅基流动和华为云昇腾云服务支持部署的DeepSeek模型 可获得持平全球高端GPU部署模型的效果。2)提供稳定的、生产级服务能 力,让模型能够在⼤规模生产环境中稳定运行,并满足业务商⽤部署需求。 华为云昇腾云服务可以提供澎湃、弹性、充足的算力。

DeepSeek-V3通过MLA和DeepSeekMoE实现高效的推理和低成本训练

DeepSeek-V3以Transformer框架为基石,创新性地融入多头潜在注意 力(Multi-head Latent Attention,MLA)和DeepSeekMoE架构。这一设计 在维持模型高性能的同时,极大地提升了训练与推理的效率。

多头潜在注意力(MLA):在传统的注意力机制中,推理期间的键值(KeyValue,即KV)缓存往往占用大量资源。而MLA则另辟蹊径,通过低秩联合压 缩技术,大幅削减了注意力键(keys)和值(values)的存储空间。在生成过 程中,仅需缓存压缩后的潜在向量,这一举措显著降低了内存需求,但在 性能上与标准多头注意力(Multi-head Attention,MHA)相比毫不逊色,有 力地保障了模型运行的流畅性。

DeepSeekMoE架构:该架构采用了更为精细粒度的专家设置,还特别将 部分专家设定为共享专家。在每一个MoE层中,都由共享专家和路由专家协 同构成。其中,共享专家负责处理所有token的输入信息,为模型提供基础 的处理支撑;而路由专家则依据每个token与专家之间的亲和度分数(这一 分数通过sigmoid函数计算得出,即token-to-expert affinity)来决定是 否被激活。这种独特的设计,使得模型在处理不同类型的输入时,能够更 加灵活且高效地调配资源,进一步提升了整体的运行效率和表现。

Scaling Law与“涌现”能力:大模型训练遵循的重要法则

Scaling Law:模型效果随模型规模指数增加而线性提高。据OpenAI发布的论文《Scaling laws for neural language models》,模型性能极大依赖训练规模,模型参数、数据集大小以及用于训练的计算量增加 可以达到减少模型损失,增加大模型性能的效果。

“涌现”能力:随着训练规模不断增大,大模型将产生质变。据《Emergent Abilities of Large Language Models》,随着模型规模的扩大,语言模型表现出的新的、不可预测的能力。这些新能力在中小模 型上线性放大都得不到线性的增长,但在模型规模突破一定阈值时突然出现。“涌现”能力反映了系统行为质 的变化,这种变化不能简单地通过观察或分析较小规模模型的性能来预测。

自1956年计算机专家约翰·麦卡锡提出“人工智能”概念以来,在过去的近70年时间里,行业经历了以CNN为代表的传统神经网络模型、以Transformer为代表的全新神经网络模型、以GPT为代表的预训练大模型这三个时代的进阶,在“算力芯片、存储芯片”等硬件技术持续演进的支撑下,伴随模型参数规模超越千亿级,近年来人工智能技术得以“涌现”出更加强大的理解、推理、联想能力。

海内外科技公司纷纷发布AI大模型,模型的更新迭代和竞争加剧。据中国信通院数据, 截至2024年7月,全球AI大模型数量约1328个(包含同一企业、同一模型的不同参数版本), 其中美国AI大模型数量位居第一位,占比44%,代表性模型包括OpenAI的GPT、Anthropic的 Claude、Meta的Llama、Google的Gemini等;中国AI大模型数量位居第二位,占比36%,代表 性模型包括阿里的通义千问、腾讯的混元大模型、百度的文心一言、月之暗面的Kimi、字节 跳动的豆包等。

模型参数规模呈现指数级增长,模型性能持续提升。近年来新推出的大语言模型所使用 的数据量和参数规模呈现指数级增长,例如GPT-3模型参数约为1750亿,据Semianalysis推 测GPT-4参数量达1.8万亿;同时,国内目前公布的大模型参数规模也普遍在百亿至千亿级 别。性能方面,据Data Learner数据,GPT-4o在MMLU测评中获得88.7分的高分,分数较GPT3大幅提高;国产模型中阿里的Qwen2.5-72B取得86.1分的高分,在各大模型中亦取得排名相 对靠前的位置。

AI模型已从大语言模型进化为全方位多模态模型,开启AI应用新纪元

23年3月以来,OpenAI所发布的GPT-4已经具备了多模态理解和多类型内容生成的能力,使得AI真正具备了重塑人 机交互模式、全方位赋能人类生活的可能性。

24年12月OpenAI连续进行新品发布,包括具备多模态推理能力的完整版o1模型,正式发布Sora视频模型,开放并 升级写作和编程工具Canvas,将ChatGPT与Apple生态深度整合、Siri与Apple Intelligence智能协同,发布了ChatGPT 能够进行视频聊天的语音和视觉功能等。

字节跳动自24年5月豆包大模型家族正式发布到12月短短7个月时间,发布了Doubao-pro、Seed-TTS、Seed-ASR、 Seed-Music、SeedEdit、视频生成模型、视觉理解模型等多项重磅成果,在语言能力、多模态理解与生成、模型推理、 代码生成等方面不断提升。

AI赋能下的“场景数字化”经济效益显著

数字化解决方案的潜在价值对应近27万亿美元。数字化转型是以价值驱动的,其需求来源于企业即通过数字化来解决业务痛点、创造真实价值。根据华为的数据,制造业、金融保险、零售、能源电力等产业的数字化潜在价值均在2万亿美元以上;以作为支柱性工业的制造业为例,多为重资产企业,且流程复杂,需要在制造、运输、管理等多个环节进行数字化应用以实现降本增效,转型诉求强,数字化创造的潜在价值达6万亿美元。

随着企业对数据的需求从收集到理解并进行应用过渡,AI是挖掘数据价值的重要工具。根据华为的数据,家电行业的大模型-AI质检系统借助AI能力,质检速度提升了数十倍。通过机器视觉+AI的方式实现产品外观质量检测的自动化、智能化,系统能够使得检测速度提升10倍以上,缺陷检出率达到98%,进一步提高了质检质量,提高良品率,并且帮助企业节约因质量问题产生的退换货成本。同时,该系统能够帮助企业大幅减少质检工时,降低了人力成本。

AI推动全球IT支出增长,生成式AI市场规模持续提高

AI技术在企业端部署和应用推动全球IT支出的增长。AI技术的发展驱动企业业务自动化、帮助企业优化资源配置并协助数据分析,从而提升业务流程效率,推动企业的智能化转型需求。个性化服务和智能应用带来了新的市场需求,以AIGC为代表的AI应用需要强大的计算能力和数据存储,推动了高性能计算、数据管理以及云计算的相关投资。随着AI应用的增多,企业对网络安全和合规服务的需求也在增加,推动相关领域的IT支出增长。据Gartner预测,企业机构将于2024年加快投资于使用生成式AI,2024年全球IT总支出预计将达到5万亿美元,较2023年增长6.8%;中国IT总支出预计将达到3.9万亿元,较2023年增长6.2%。

AI技术将产生巨大的经济影响,其投入产出效益显著。据IDC数据,预计到2030年,人工智能对全球经济的累计影响将达到19.9万亿美元,占到预计2030年全球GDP的3.5%。到2030年,每在AI解决方案和服务上花费1美元,将产生4.6美元的经济效益,包括直接影响和间接影响。

生成式AI市场将成为当前最热门的IT领域。据IDC数据,24年中国生成式AI市场预计将达到33亿美元,预计到2028年将达到135亿美元,2024-2028年复合增长率将达33.4%,同时生成式AI市场规模占到整体AI市场规模的比例将由16%上升到29%。对于企业来讲,对于生成式AI的支出亦将经历不同阶段的重点,例如2024-2025年,支出主要集中在生成式AI基础设施建设;2025-2026年,支出重点用于推进生成式AI平台与解决方案建设;2027年及以后,支出重点着力于生成式AI服务。

来源:报告研究所

相关推荐