摘要:——中国初创公司 DeepSeek 推出了最新的人工智能模型,据称这些模型与美国行业领先的模型相当甚至更好,而成本却只是其一小部分,这一举措有可能颠覆科技世界秩序。
(路透社)——中国初创公司 DeepSeek 推出了最新的人工智能模型,据称这些模型与美国行业领先的模型相当甚至更好,而成本却只是其一小部分,这一举措有可能颠覆科技世界秩序。
该公司上个月在一篇论文中指出,DeepSeek-V3 的训练只需要价值不到 600 万美元的 Nvidia (NASDAQ: NVDA ) H800 芯片的计算能力,此举引起了全球人工智能界的关注。
由 DeepSeek-V3 提供支持的 DeepSeek 人工智能助手已超越竞争对手 ChatGPT,成为美国Apple(纳斯达克股票代码: AAPL )App Store 上评分最高的免费应用程序。
这引发了人们对一些美国科技公司决定在人工智能领域投入数十亿美元的理由的怀疑,包括英伟达在内的几家大型科技公司的股价也受到冲击。
以下是该公司在全球人工智能领域引起震动的一些事实。
——DEEPSEEK 为何会引起轰动?
2022 年底,OpenAI ChatGPT 的发布引发了中国科技公司的争夺,他们纷纷创建自己的人工智能聊天机器人。
但在搜索引擎巨头百度 (NASDAQ: BIDU )发布首个中文版 ChatGPT 后,中国国内民众对中美企业在人工智能能力方面的差距普遍感到失望。
DeepSeek 模型的质量和成本效率彻底颠覆了这种说法。这家中国初创公司表示,DeepSeek-V3 和 DeepSeek-R1 这两款模型受到了硅谷高管和美国科技公司工程师的一致好评,与 OpenAI 和 Meta (NASDAQ: META ) 最先进的模型不相上下。
它们使用起来也更便宜。据DeepSeek官方微信账号上的一篇文章称,上周发布的DeepSeek-R1的使用成本比OpenAI o1模型低20到50倍,具体取决于任务。
但一些人公开对 DeepSeek 的成功故事表示怀疑。
Scale AI 首席执行官亚历山大·王 (Alexandr Wang) 周四在接受 CNBC 采访时表示,DeepSeek 拥有 50,000 块 Nvidia H100 芯片,但他没有提供证据,并声称不会披露这些芯片,因为这将违反华盛顿的出口管制规定,即禁止向中国公司出售此类先进 AI 芯片。DeepSeek 尚未立即回应对该指控的置评请求。
伯恩斯坦分析师周一在一份研究报告中强调,DeepSeek 的 V3 模型总训练成本尚不清楚,但远高于该公司声称的 558 万美元的计算能力成本。分析师还表示,同样广受好评的 R1 模型的训练成本并未披露。
——DEEPSEEK 的幕后推手是谁?
DeepSeek 是一家位于杭州的初创公司,根据中国公司记录,其控股股东是量化对冲基金 High-Flyer 的联合创始人梁文峰。
2023 年 3 月,梁的基金在其官方微信公众号上宣布“重新出发”,超越交易,集中资源打造“全新独立研究团队,探索 AGI(通用人工智能)的本质”。DeepSeek 于同年晚些时候成立。
ChatGPT 制造者 OpenAI 将 AGI 定义为在最具经济价值的任务中超越人类的自主系统。
目前尚不清楚 High-Flyer 对 DeepSeek 的投资金额。根据中国公司记录,High-Flyer 的办公室与 DeepSeek 位于同一栋大楼内,并且还拥有用于训练 AI 模型的芯片集群相关专利。
High-Flyer 的 AI 部门于 2022 年 7 月在其官方微信上表示,其拥有并运营着 10,000 个 A100 芯片的集群。
——北京如何看待 DEEPSEEK?
DeepSeek 的成功已经引起了中国高层政治圈的关注。据新华社报道,1 月 20 日,也就是 DeepSeek-R1 向公众发布的当天,创始人梁文冲参加了中国政府举办的一场闭门企业家和专家座谈会。
梁出席此次会议可能表明,DeepSeek 的成功对于北京克服华盛顿的出口管制、实现人工智能等战略产业的自给自足的政策目标至关重要。
百度首席执行官李彦宏去年也出席了类似的研讨会。
来源:书香盈袖