摘要:在当今的 AI 领域,算力的竞争可谓是硝烟弥漫。英伟达市值一路飙升,一度成为全球市值最高的公司,其背后正是 AI 算力给予的巨大想象力。据相关数据显示,OpenAI 耗费了 40TB 的数据,并每天消耗高达 50 万千瓦时的电力 ,训练一次拥有 1746 亿参
在当今的 AI 领域,算力的竞争可谓是硝烟弥漫。英伟达市值一路飙升,一度成为全球市值最高的公司,其背后正是 AI 算力给予的巨大想象力。据相关数据显示,OpenAI 耗费了 40TB 的数据,并每天消耗高达 50 万千瓦时的电力 ,训练一次拥有 1746 亿参数的 GPT-3 模型,所需的算力更是高达 3640PFlops,耗资 466 万美元。这一系列数字无不彰显着算力在 AI 发展中的重要地位,也让人们逐渐形成了一种认知:大算力是 AI 成功的关键,想要在 AI 领域取得优异成绩,就必须投入大量的算力资源。然而,DeepSeek 的出现,却如同一颗重磅炸弹,打破了这个被人们奉为圭臬的 “算力神话”。
2023 年 7 月,当 DeepSeek 怀揣着对 AI 的无限憧憬踏入这片充满挑战的领域。彼时,AI 领域早已是巨头林立,英伟达凭借其强大的算力卡技术,在市场上占据着主导地位,一张英伟达 H100 GPU 芯片的价格更是被炒到了近 3 万元,让众多企业望而却步。而那些已经在大模型领域深耕的企业,如 OpenAI、谷歌、Meta 等,更是拥有着令人咋舌的算力资源。OpenAI 为了训练 GPT-4,使用了超过 1 万张英伟达 H100 GPU,谷歌在训练 BERT 模型时,也投入了大量的算力资源,其背后的算力卡数量同样庞大。在国内,百度、阿里、腾讯等互联网巨头也纷纷在 AI 领域布局,投入大量资金购买算力卡,以支持其大模型的训练。
然而,为了不让其他国家在科技领域发展起来,保住自己的霸权地位,美国这几年在算力方面搞了一连串的封锁动作。就拿芯片出口限制来说,美国把英伟达 A100、H100 这些高性能计算芯片都列为不许卖的东西,不让往中国、俄罗斯等国家出口,而且还把 A800、H800 也放进了禁售的名单里,连数据中心级 GPU 芯片都包括了。不光这样,先进的半导体制造设备、云计算服务还有 AI 训练框架这些领域也都受到了影响。另外呢,美国还插手全球的云计算市场,想要限制其他国家通过云计算得到算力资源,给部分国家的云计算企业合作找麻烦,不让进行技术交流和算力共享。
据第三方技术机构 Semianalysis 推测,deepseek其异构计算集群约有 6 万张显卡1。这些显卡并非同一型号,而是由不同代际的显卡组成,其中包括 3 万张 H20 低性能计算卡、1 万张 A100、1 万张 H800 及 1 万张 H100。与这些行业巨头相比,DeepSeek 拥有的算力卡数量远远少于其他主要大模型企业。在算力就是生产力的 AI 时代,如此悬殊的算力差距,无疑让 DeepSeek 在这场激烈的竞争中处于极其不利的地位,仿佛是一个瘦弱的孩子,要与一群强壮的巨人进行一场力量悬殊的较量。
然而,命运似乎总是喜欢给人们带来意想不到的惊喜。就在所有人都以为 DeepSeek 会在这场算力的 “军备竞赛” 中黯然失色时,它却以一种令人惊叹的方式实现了逆袭。在 2024 年 12 月发布的 DeepSeek-V3 模型,在多个关键性能指标上超越了强大的 GPT-4o。在编码能力测试中,DeepSeek-V3 在 HumaneVal 基准测试中的通行率高达 73.78%,而 GPT-4o 仅为 67%;在数学推理能力方面,DeepSeek-V3 在数学 500 评测中得分 90.2,GPT-4o 则只有 74.6。这些数据就像一记记响亮的耳光,狠狠地打在了那些曾经轻视 DeepSeek 的人的脸上,也让整个 AI 行业为之震惊。
在数据标注这个重要的环节,DeepSeek 可没想着走啥捷径,而是把质量看得最重要。梁文锋自己亲自参加数据标注的工作,保证每一条数据都经过了严格的审查。DeepSeek 还请来了在相关领域经验特别丰富的专家来做数据标注,这些专家靠着自己的专业知识和大量的经验,能够把数据标注得更准确,保证每一条数据都能给模型训练提供有用的信息。
除了在数据标注上力求做到最好,DeepSeek 在算法优化这一块也想出了不一样的办法,显示出了特别厉害的创新本事。它用了动态稀疏训练的架构,通过改变网络里不同节点的活跃程度,做到了精度和效率的平衡。在架构设计上,DeepSeek 弄来了混合专家(MoE)架构和多头潜在注意力(MLA)机制,这样就提高了处理的效率,大大减少了需要的缓存容量,降低了计算的复杂程度,让模型的处理能力又提高了不少。DeepSeek 还很有创意地用了多标记预测(MTP)机制,能一次预测好多个 token,大大提高了训练和推理的效率,也减少了算力的耗费。
在算力资源不多的状况下,DeepSeek 把算力卡的性能给挖透了、用绝了。它用上了 FP8 混合精度训练技术,把一部分权重或者优化器状态用 8 位来量化,这办法不光降低了对计算精度的要求,还让显存的占用少了一半,训练速度提高了三成。为了让 GPU 能用得更充分,DeepSeek 用了 DualPipe 流水线技术,把数据并行和模型并行结合起来,让 GPU 的利用率达到最大,很好地解决了多卡训练里通信瓶颈这个难题。同时,DeepSeek 还靠 PTX 编程对英伟达计算卡底层的设置进行优化,硬让一部分流处理器只处理通信的任务,又进一步提高了多卡训练的效率。
DeepSeek 取得的成功,就好比一条鲶鱼,把原本看似风平浪静的国际大模型竞争局面给搅乱了。它凭借开源模式以及接近 GPT-4o 的性能表现,让 OpenAI 等那些闭源模型的巨头们感受到了从来没有过的压力。为了应对 DeepSeek 带来的挑战,这些巨头不得不重新琢磨自己的定价策略和技术开放的程度,想一想怎么在保住技术优势的情况下,把成本降下来,把性价比提上去,从而满足市场的需求。对中小企业来讲,DeepSeek 的出现简直就是一场及时雨。过去的时候,因为大模型的研发成本特别高,中小企业通常只能干瞪眼,没办法享受到 AI 技术带来的好处。但现在呢,DeepSeek 把 AI 技术的门槛大大降低了,每百万 Token 只要 0.48 美元,这使得中小企业也能轻轻松松用上先进的 AI 技术,去开展自家的创新业务。
DeepSeek 的出现,让人们深刻认识到,在 AI 领域,“堆算力” 并不是唯一的成功之道,“拼效率” 同样可以取得巨大的突破。它通过架构创新和算法优化,大幅降低了对算力的依赖,为行业提供了一种全新的研发思路。这种从 “堆算力” 到 “拼效率” 的转变,不仅有助于降低研发成本,提高资源利用效率,还能推动 AI 技术朝着更加可持续的方向发展。
来源:数智经略