摘要:在如今大模型爆发的时期,拉住一个AI从业者问他市场上谁家的大模型更为优秀。他应该会告诉你“去看这家有多少算力投入训练”,更为言简的话他会以“存储有多少块英伟达算力芯片”作为更直接的衡量标准。
【环球网科技综合报道 记者 秦耳】在如今大模型爆发的时期,拉住一个AI从业者问他市场上谁家的大模型更为优秀。他应该会告诉你“去看这家有多少算力投入训练”,更为言简的话他会以“存储有多少块英伟达算力芯片”作为更直接的衡量标准。
这样的解释也没有太大的问题,如今市面上无论开源大模型,还是闭源大模型,其内核都来自谷歌研究团队在2017年发布的《Attention is All You Need》这篇论文中所开发出的“Transformer模型”。包括特斯拉的自动驾驶FSD,以及OpenAI的ChatGPT都是对Transformer模型的产品化开发,可以说当前市面上所有正在运行的AI大模型都是“Transformer模型”的变种。
就像《邪不压正》这部电影里李天一和朱潜龙的经典台词“都是同一个师傅教的,破不了招啊。”如今的AI大模型市场也面临这样的局面,既然做不到“内核”多样化,那么只能通过快速且大量的数据训练,让“经验值”快速提升从而达到升级的目的。
据了解,仅在2023年,OpenAI训练GPT-4时,就用了25000张型号为A100的英伟达GPU。据外媒报道,当前OpenAI至少拥有40万块英伟达的GB200芯片和H100芯片。而甲骨文CEO拉里·埃里森也在一次播客访谈中讲到,他曾经跟特斯拉CEO马斯克在一次邀请黄仁勋(英伟达老板)的饭局上,“乞求”黄仁勋给甲骨文和特斯拉预留足够的算力芯片。
事情的发展如果继续沿着“堆算力”的方向发展,整个行业就没有变局的可能。但是,打破湖面的涟漪终究会来,在12月中旬中国初创企业DeepSeek开发的大语言模型(LLM)DeepSeek-V3引发美欧业界广泛关注,该模型在技术性能、开源模式、成本效益等方面的突出表现获得积极评价。
根据测评机构Artificial Analysis的独立分析,DeepSeek-V3可与世界顶尖的AI模型竞争。在文本理解、编码、数学和学科知识方面,DeepSeek-V3优于Meta的Llama 3.1-405B和阿里巴巴的Qwen 2.5-72B等开源模型,并在性能上和世界顶尖的闭源模型OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet不分伯仲。DeepSeek-V3在中文处理、编码和数学计算等方面的优势,使其在教育和科研领域具有巨大潜力。
可以说,DeepSeek-V3的能力超过了许多开源对手,例如Meta公司的Llama-3.1模型和阿里巴巴的Qwen2.5模型。一般情况下,顶级闭源模型的能力通常优于开源模型,但DeepSeek在代码生成、数学运算等方向表现出了非凡的实力。
其次,DeepSeek-V3的开发和训练成本也明显低于其他大模型。OpenAI创始成员之一安德烈·卡帕蒂强调了这种非凡的效率:像DeepSeek-V3这样性能和级别的模型,通常需要1.6万到10万个GPU的集群来训练,而中国初创公司仅用了2048个GPU在57天内便完成了训练。其成本约557.6万美元,仅为其他主流模型(如GPT-4)的1/10左右。
用更为明显的数字来说明,DeepSeek-V3模型只用了2048张英伟达H800显卡,两个月时间,便训练出了一个拥有6710亿参数的超大规模模型,训练成本约为550万美元。数据对比后,DeepSeek的厉害之处更为明显。如果是其他硅谷公司来完成同等能力的模型,通常会选择最高端的英伟达显卡,而不是价格较低的H800显卡。此外,他们至少需要1.6万块高端显卡才能达到类似水平,远无法像DeepSeek这样仅用2000块H800显卡完成任务。
从算力上看,V3的训练耗费仅为同等规模硅谷公司模型的十一分之一。而在成本上,Meta的同等能力模型训练花费高达数亿美元,完全无法与DeepSeek的性价比相提并论。
盘古智库的专家胡延平对于DeepSeek-V3的评价更为中肯,DeepSeek-V3的成功更多是证明了行业大模型路线的可行性,虽然相较于通用大模型它还是有差距。不过,我国产业界对于AI大模型的发展路径本来就是在“产业化落地”方向,行业大模型与产品落地匹配度更高,更适合我国对于AI赋能各行各业的需求。
值得一提的是,DeepSeek-V3发布后的一段时间内,英伟达的股价也遭遇了波动。有华尔街分析师认为,DeepSeek-V3的上市,让市场对于AI大模型“堆算力”的发展模式产生了动摇。
来源:环球网海外看中国