摘要:在刚刚过去的春节假期,一款名为DeepSeek的AI产品席卷全球科技圈,成为科技爱好者们热议的焦点。这款由中国科技公司深度求索推出的推理模型DeepSeek-R1,凭借其卓越的性能和低廉的成本,成功吸引了全球的目光。
在刚刚过去的春节假期,一款名为DeepSeek的AI产品席卷全球科技圈,成为科技爱好者们热议的焦点。这款由中国科技公司深度求索推出的推理模型DeepSeek-R1,凭借其卓越的性能和低廉的成本,成功吸引了全球的目光。
1月20日,深度求索公司正式推出了DeepSeek-R1。据官方介绍,该模型在性能上与OpenAI的最新模型GPT-o1相当,但训练成本仅为OpenAI的十分之一。这一消息迅速引发了全球科技界的轰动,DeepSeek也因此成为了全球范围内首个超越OpenAI ChatGPT的产品。
其实,DeepSeek的出色表现并非偶然。早在去年5月,深度求索就曾以DeepSeek-V2的超低价格在国内AI行业引发关注。当时,DeepSeek-V2的价格仅为GPT-4-Turbo的近百分之一。此后,字节、百度、阿里等公司的大模型纷纷降价,而DeepSeek更是一年内三次降价,每次降幅都超过85%。
DeepSeek之所以能够如此“抠门”,关键在于其独特的训练方式和算法优化。公司研究人员提出了一种新的MLA架构,与DeepSeek MoESparse结合,将显存占用降到了其他大模型最常用的MHA架构的5%-13%。同时,DeepSeek还采用了“数据蒸馏”技术,通过用高精度的通用大模型当老师,高效训练学生模型,从而大大降低了数据计算量。
这种“低成本、高性能”的初始规划,让DeepSeek在训练和推理成本上取得了显著优势。R1的预训练费用仅为557.6万美元,在2048块英伟达H800 GPU集群上运行55天即可完成。相比之下,OpenAI等企业训练模型需要数千甚至上万块高算力的顶级显卡,花费数亿美元的训练成本。
除了成本优势外,DeepSeek还选择了从垂直场景切入,追求在部分领域(如数学、代码)的表现更优。这种另辟蹊径的策略让DeepSeek在与OpenAI等“通用巨兽”的竞争中展现出了同等能力甚至略微领先。DeepSeek R1与OpenAI O1正式版在数学、代码、自然语言推理等任务下的测试成绩相当,足以证明其实力。
DeepSeek的脱颖而出还与其坚持的免费开源主张密不可分。公司公开了模型的源代码、权重和架构,无论是个人开发者还是企业用户都可以免费使用其最新模型,并在此基础上开发更多应用。这一决策得到了许多行业专家和投资者的赞许,也让DeepSeek在全球范围内快速建立了生态。
英伟达高级研究科学家Jim Fan评论称:“我们生活在这样一个时代,一家非美国公司正在让OpenAI的初衷得以延续,即做真正开放、为所有人赋能的前沿研究。”硅谷风投A16Z创始人Marc Andreessen也表示:“DeepSeek-R1是我见过的最令人惊叹且令人印象深刻的一个突破,作为开源的模型,它的面世给世界带来了一份礼物。”
DeepSeek的开源策略不仅挑战了传统大厂的技术垄断,也为其自身发展带来了更多可能性。通过开源策略,DeepSeek可以快速建立生态,获得更多的用户和开发者支持。未来,DeepSeek计划通过企业版工具链(如模块训练平台)推进商业化,成为更多公司的模型底座。
DeepSeek的崛起不仅让中国AI行业看到了希望,也为全球AI竞赛带来了新的变数。在AI技术日新月异的今天,创新和模仿的差别将决定中国科技公司与美国科技公司之间的差距。而这一次,DeepSeek代表的中国科技公司给出的方案不再是模仿跟随,而是创新。
来源:ITBear科技资讯