摘要:DeepSeek的持续火爆,被广泛认为是中国AI大模型的“弯道超车”,其最大的意义是打破了物理算力至上的逻辑,用更低的成本训练出高性能AI大模型,对行业领头羊OpenAI产生巨大冲击。
文/Leon
编辑/cc孙聪颖
DeepSeek的持续火爆,被广泛认为是中国AI大模型的“弯道超车”,其最大的意义是打破了物理算力至上的逻辑,用更低的成本训练出高性能AI大模型,对行业领头羊OpenAI产生巨大冲击。
自2025年1月末上线以来,基于DeepSeek V3模型的DeepSeek官方App下载量飙升,目前已经登顶全球140多个国家应用商店,日活突破2000万,在多个国家及地区取代ChatGPT成为最受欢迎的AI应用。
人红是非多。很快,DeepSeek的高效、低成本遭遇质疑,包括马斯克等科技大佬纷纷下场表态,认为DeepSeek不可能突破算力瓶颈。
DeepSeek的争议:创新还是取巧
训练大模型需要算力,算力则是通过英伟达AI显卡实现。以马斯克xAI的全球最大超级计算中心“Supercluster”为例,该集群由10万个液冷英伟达H100 GPU组成,价值超40亿美元。同样,OpenAI、Meta、亚马逊等企业的AI投入,也都以数亿美元起计算。
没有算力,开发不出高性能的大模型;算力需要英伟达高性能AI显卡,不仅奇货可居,还针对中国市场进行限制,只向中国市场销售低性能的阉割版本,比如特供版H800,性能明显低于通用版H100。因此,按照上述逻辑来说,DeepSeek这样同时具有高性能、低算力成本的大模型,是不应该出现的。
图:xAI旗下Supercluste超算中心
据了解,DeepSeek-V3模型仅使用了2048块H800的芯片、历经两个月,便实现了6710亿参数的训练成果。相比之下,Meta的Llama 3训练参数为4050亿,则需要16384块性能更强的H100芯片、耗时54天才能完成训练, DeepSeek的训练效率提升了11倍。
目前,对于DeepSeek算力争议众说纷纭,《华尔街科技眼》汇总了各方观点。
第一种观点,是DeepSeek隐瞒了其训练模型的真实算力,马斯克便是其中之一。据美媒报道,美国白宫和FBI正展开调查 DeepSeek是否透过新加坡作为中转站获得H100显卡。所谓的疑点来自英伟达财报,其2023 财年第三财季新加坡营收占比仅为9%;而在美国升级对华AI芯片出口管制之后,新加坡在英伟达2025 财年第三财季的营收占比提升至22%。
对此,英伟达方面简称公司遵循所有法律要求,表示新加坡是主要的交易中转站,英伟达是在此统计销售额,并不代表产品的实际最终使用地点。
第二种观点,是OpenAI主张的“数据蒸馏”观点。DeepSeek的大模型均为开源,在使用指南中也提及到数据蒸馏,但数据蒸馏在训练大模型中是常见的手段,关键争议在于DeepSeek是否使用了OpenAI的闭源数据。ChatGPT分为多个版本,只有GPT 2时期短暂开源,后续的 3.5/4.0等均不再开源。至截稿前,OpenAI方面未发布相关的调查结果。
DeepSeek与OpenAI大模型基准性能测试对比
第三种观点,即DeepSeek的创新实际上是思路上的改变,通过算法上的优化降低物理算力成本。此观点也获得了一些AI权威的认同。人工智能和机器学习领域的权威学者、曾任百度首席科学家的吴恩达认为,DeepSeek通过算法创新而非纯粹的算力,为AI领域带来了新的思路转变,包括专注效率而非规模的理念、降低AI应用的构建门槛等等,将对AI企业的商业决策产生深远影响。
吴恩达的观点很快得到了印证。最新消息称,“AI教母”李飞飞团队和华盛顿大学研究人员近日以不到50美元的云计算费用训练出一个名为S1的人工智能推理模型,其数学和编码能力在测试中的表现达到了OpenAI o1和DeepSeek R1的水平。
需要指出的是,S1模型是使用了16个英伟达H100显卡、通过数据蒸馏谷歌Gemini 2.0 Flash Thinking Experimenta多模态模型,耗时26分钟完成训练。“不到50美元”的成本仅计算了云服务费用,不包括显卡、服务器等其他硬件费用。
李飞飞团队成功训练出成本不足 50 美元的人工智能模型,有力地打破了 DeepSeek R1 身上那层被过度神化的光环,让业界对其有了更为客观、理性的认知。
DeepSeek遭多个国家局部封禁
神秘面纱已经褪去,算力争议仍存在,随之而来的,便是以数据安全为由的各种调查以及针对性措施。据《路透社》2月6日报道称,韩国产业通商资源部一位官员表示,出于安全因素,该部门已暂时禁止员工访问DeepSeek。此前,韩国政府在4日发布通知,呼吁各个政府部门员工在工作中谨慎使用AI应用,包括ChatGPT及DeepSeek。目前,尚不明确上述部门是否同样禁用ChatGPT。
韩国并非首个在政府部门禁用DeepSeek的国家。据新加坡《联合早报》报道,2月5日,澳大利亚以“国家安全”为由,禁止在政府设备上使用DeepSeek。
据悉,澳大利亚内政部长托尼·伯克在一份声明中指出,根据澳大利亚情报机构的威胁评估,DeepSeek相关技术奖构成不可接受的风险,主要集中在用户使用DeepSeek时上传的信息可能“无法被妥善保护”、并可能会“让用户面临恶意软件的风险”。基于国家安全考量,将从政府系统中移除所有DeepSeek产品和相关服务。
不过,伯克也表示澳洲政府做出上述决定,是“基于风险评估,而非针对某个国家,旨在保护澳大利亚政府及其资产免受风险。”
美国方面,部分政府部门也在近日通过行政命令来禁止在官方设备上使用DeepSeek,包括美国国防部、国会、海军、NASA以及得克萨斯州政府。
与此同时,美国方面也在加紧制定相关政策,限制使用DeepSeek。据美媒报道,2月3日,美国国会提出新法案,寻求全面禁止包括DeepSeek在内的中国的先进AI模型,下载者将被判处20年监禁。当然,这只是一份提案,而且过于极端,即便是美媒都表示该法案不可能通过。
与上述国家不同,目前意大利实施全面封禁DeepSeek的政策。1月28日,意大利隐私监管机构 Garante要求DeepSeek提供关于个人数据使用问题的解释,包括“收集了哪些个人数据、收集来源、收集目的、基于什么法律依据,是否存储在中国等。”随后在1月30日,意大利区苹果AppStore和谷歌Play商店中的DeepSeek应用均被下架,无法下载。
作为欧盟成员国,意大利先于欧盟封禁DeepSeek是令人有些意外的。欧盟对中国跨国应用的态度一直相对温和,虽然Temu、TikTok等应用此前也被相关机构调查过,但并未采用一刀切的封禁措施。与之相对的,ChatGPT在意大利并未受到该监管组织的质疑。
在2月6日的中国外交部例行记者会上,有媒体就此事提问,外交部发言人郭嘉昆表示:“我想强调的是,中国政府高度重视并依法保护数据隐私和安全,从来没有也不会要求企业或个人以违法的形式采集或存储数据。中方一贯反对泛化国家安全概念、将经贸科技问题政治化的做法,同时中方也将坚定维护中国企业的合法权益。”
事实上,部分封禁并没有阻止DeepDeek在全球市场流行。To C市场方面,据Appfigures数据显示,DeepSeek App于1月26日首次登顶苹果App Store,并迅速攀升至140个国家及地区榜首,在发布的18天内实现1600万次下载,其中印度下载量位居榜首,达到15.6%。
To B市场,包括英伟达、亚马逊、微软等科技巨头纷纷接入DeepSeek平台,与西方国家政府的谨慎态度形成了鲜明对比。
全球科技巨头纷纷与DeepSeek合作
与上述三国政府不同的是,跨国科技巨头对DeepSeek的态度更加开放,其中也包括受影响最大的英伟达。
DeepSeek爆火后,一度导致英伟达单日市值蒸发约5468亿美元(约合3.9万亿人民币),公司总市值降至2.95万亿美元。不过,截至美东时间2025年2月5日,英伟达股价再次上涨超5%,市值一夜之间增加了1513亿美元(约合1.1万亿人民币),总市值再次突破3万亿美元的大关。
事实上,英伟达在1月31日便宣布接入DeepSeek-R1大模型,同时加入的还有亚马逊和微软。
据英伟达官方表示,DeepSeek-R1采用大规模专家混合(MoE)架构,参数规模高达 6710 亿,是许多流行的开源大模型的10倍,推理能力极强。在接入该模型后,英伟达的To B用户可通过NVIDIA NIM服务更加高效地构建AI智能体。
与英伟达类似,曾经表示要调查DeepSeek数据来源的微软,也在第一时间宣布接入R1大模型。微软CEO萨提亚·纳德拉在1月29日接受访问时说道:“我认为DeepSeek有一些真正的创新。这种优化意味着AI将更加无处不在,对于像我们这样的超大规模服务提供商和PC平台提供商来说,这都是好消息。”
苹果CEO蒂姆·库克同样盛赞DeepSeek,称其高效创新令人瞩目,这也不免让人猜测难产的苹果智能中文版,未来是否有接入DeepSeek的可能性。
另外,腾讯、华为、海光信息、潞晨科技等科技企业,也在近日宣布旗下产品接入DeepSeekV3和R1模型,拉动了一批概念股上涨。
在此情况下,DeepSeek的最大竞争者OpenAI,似乎陷入了窘境。据悉,OpenAI正在调查其数据是否被与DeepSeek “以未经授权的方式”获取,同时还在商业行为上做出,包括推出免费大模型o3-mini、免费向所有用户开放ChatGPT搜索等。
客观地说,OpenAI在近年来AI技术发展中占据绝对的主导地位。这家初创公司开创了基于大模型的生成式人工智能创新,这种模式高度依赖GPU算力,才有了英伟达从游戏显卡厂商到AI硬件算力供应商的华丽转身。
OpenAI的定义下,中国科技巨头如腾讯、阿里、字节、百度等,也都纷纷开始堆积算力跑大模型,但不论是通义、豆包或是文心,都没有让OpenAI产生危机感,直至DeepSeek的出现。
用最容易理解的话来说,即DeepSeek颠覆了算力为王的传统概念,这也是其充满巨大争议的主要原因。
来源:华尔街科技眼