摘要:中国新发布的 DeepSeek AI 聊天机器人应用程序震惊了科技行业。它迅速超越 OpenAI 的 ChatGPT,成为美国下载次数最多的免费 iOS 应用程序,并导致芯片制造公司 Nvidia 的市值在一天内蒸发近 6000 亿美元(4830 亿英镑),创
DeepSeek 的开发人员表示,该聊天机器人的构建成本仅为 ChatGPT 等竞争对手的一小部分
一家中国小公司发布了一款新型人工智能聊天机器人,引发了股市暴跌和夸张宣传。这款机器人有何不同?
中国新发布的 DeepSeek AI 聊天机器人应用程序震惊了科技行业。它迅速超越 OpenAI 的 ChatGPT,成为美国下载次数最多的免费 iOS 应用程序,并导致芯片制造公司 Nvidia 的市值在一天内蒸发近 6000 亿美元(4830 亿英镑),创下美国股市新高。
这场骚动背后的原因是什么?支持该应用程序的“大型语言模型”(LLM)具有与 OpenAI 的 o1 等美国模型相当的推理能力,但据报道,训练和运行成本仅为其一小部分。
盖蒂图片社
分析
安德鲁·邓肯博士是英国伦敦艾伦图灵研究所科学与创新基础人工智能主任。
DeepSeek 声称,他们通过部署多种技术策略实现了这一目标,这些策略既减少了训练模型(称为 R1)所需的计算时间,也减少了存储模型所需的内存量。DeepSeek 表示,这些开销的减少导致成本大幅降低。据报道, R1 的基础模型 V3需要278.8 万小时进行训练(同时在许多图形处理单元(GPU)上运行),估计成本不到 600 万美元(480 万英镑),而OpenAI 老板 Sam Altman 表示,训练 GPT-4 需要超过 1 亿美元(8000 万英镑)。
根据英伟达发布的一篇研究论文,尽管英伟达的市值受到打击,但 DeepSeek 模型是在大约2,000 块英伟达 H800 GPU上进行训练的。这些芯片是广泛使用的 H100 芯片的改进版,旨在符合对中国的出口规定。这些芯片很可能是在 2023 年 10 月拜登政府进一步收紧限制之前储存的,这实际上禁止了英伟达向中国出口 H800。在这些限制因素的影响下,DeepSeek 很可能被迫寻找创新方法来最有效地利用其掌握的资源。
降低训练和运行模型的计算成本也可能解决人们对人工智能对环境影响的担忧。它们运行的数据中心对电力和水的需求巨大,主要是为了防止服务器过热。虽然大多数科技公司没有披露运行其模型所涉及的碳足迹,但最近的一项估计显示,ChatGPT 每月的二氧化碳排放量超过260 吨——相当于从伦敦飞往纽约的 260 个航班。因此,从环境角度来看,提高人工智能模型的效率对该行业来说是一个积极的方向。
观看 DeepSeek 人工智能机器人回答有关中国的问题
观看 DeepSeek 人工智能机器人回答有关中国的问题
当然,DeepSeek 的模型是否确实可以在现实世界中节省能源还有待观察,而且也不清楚更便宜、更高效的人工智能是否能吸引更多人使用该模型,从而增加总体能源消耗。
至少,它可以帮助在即将召开的巴黎人工智能行动峰会上推动可持续人工智能的议题,以便我们将来使用的人工智能工具对地球更加友好。
让很多人感到惊讶的是,DeepSeek 如此迅速地凭借如此具有竞争力的大型语言模型亮相——该公司 2023 年才由梁文峰创立,如今他在中国被誉为“AI 英雄”。
该模型由一组小得多的模型构成,每个模型都具有特定领域的专业知识
最新的 DeepSeek 模型之所以引人注目,还因为它的“权重”——从训练过程中获得的模型数值参数——已经公开发布,同时还发布了描述模型开发过程的技术论文。这使得其他团体可以在自己的设备上运行该模型,并将其应用于其他任务。
这种相对开放性也意味着,世界各地的研究人员现在能够深入了解模型内部,了解其工作原理,而不像 OpenAI 的 o1 和 o3 那样实际上是黑匣子。但仍有一些细节缺失,例如用于训练模型的数据集和代码,因此研究人员现在正试图将它们拼凑起来。
更多类似信息:
• DeepSeek 与 ChatGPT – 两者相比如何?
• 当 AI 伴侣想要更多东西时
• 中国的人工智能工具DeepSeek真的像看上去那么好吗?
DeepSeek 的成本削减技术并非全部都是新的——有些技术已在其他 LLM 中使用过。2023 年,Mistral AI 公开发布了其 Mixtral 8x7B 模型,该模型与当时的先进模型不相上下。Mixtral 和 DeepSeek 模型都利用了“专家混合”技术,该模型由一组小得多的模型构建而成,每个模型都具有特定领域的专业知识。给定一项任务,混合模型会将其分配给最有资格的“专家”。
DeepSeek 甚至披露了其通过其他技术方法改进 LLM 推理的失败尝试,例如蒙特卡洛树搜索,这种方法长期以来一直被吹捧为指导 LLM 推理过程的潜在策略。研究人员将利用这些信息研究如何进一步增强该模型已经令人印象深刻的解决问题能力——这些改进很可能最终出现在下一代 AI 模型中。
DeepSeek 使用 Nvidia H100 GPU 的改进版本来训练其 LLM(图片来源:Getty Images)
那么,这一切对于人工智能行业的未来意味着什么?
DeepSeek 可能证明,构建复杂的 AI 模型并不需要大量资源。我猜,随着公司想出让模型训练和运行更高效的方法,我们将开始看到用越来越少的资源开发出高性能的 AI 模型。
到目前为止,人工智能领域一直由美国的“大型科技”公司主导——唐纳德·特朗普称 DeepSeek 的崛起为美国科技行业敲响了“警钟”。但从长远来看,这一发展对 Nvidia 等公司来说未必是坏消息:随着开发人工智能产品的财务和时间成本的降低,企业和政府将能够更轻松地采用这项技术。这反过来又会推动对新产品及其驱动芯片的需求——因此,这一循环将继续下去。
中国 美国
看来,像 DeepSeek 这样的小公司将在创造可能让我们的生活更轻松的人工智能工具方面发挥越来越大的作用。低估这一点将是一个错误。
H20芯片原计划2023年底推出,但随着中美芯片战升温而延至2024年初
来源:TheTopOnes