摘要:近日中国AI大模型创业公司DeepSeek(深度求索)正式发布DeepSeek-R1大模型1月27日苹果App Store中国区免费榜显示DeepSeek站上首位同时其在美区苹果App Store免费榜从26日的第六位飚升至第一位超越ChatGPT、Meta旗
近日
中国AI大模型创业公司
DeepSeek(深度求索)
正式发布DeepSeek-R1大模型
1月27日
苹果App Store中国区免费榜显示
DeepSeek站上首位
同时其在美区苹果App Store免费榜
从26日的第六位飚升至第一位
超越ChatGPT、
Meta旗下社交媒体平台Threads、
Google Gemini、Microsoft Copilot等
美国科技公司的生成式AI产品
DeepSeek表示
DeepSeek-R1在数学、代码
自然语言推理等任务上
性能比肩OpenAI o1正式版
这一消息震动了全球AI圈
迅速引起国际社会
广泛关注与讨论
“高性价比”引发AI圈震动
DeepSeek-R1大模型发布之前
DeepSeek公司就已经因为“性价比高”
而引发AI圈震动
公开资料显示
DeepSeek
成立于2023年7月17日
是一家创新型科技公司
专注于开发先进的
大语言模型(LLM)和相关技术
2023年11月2日
DeeSeek推出
首个模型DeepSeek Coder
该模型免费供商业使用
且完全开源
2023年11月29日
DeepSeek LLM上线
其参数规模达到67B
性能接近GPT-4
同时还发布了
该模型聊天版本DeepSeek Chat
2024年5月
DeepSeek-V2发布
该模型在性能上
比肩GPT-4 Turbo
价格却只有GPT-4的百分之一
2024年12月底
DeepSeek-V3发布
其性能与GPT-4o和Claude Sonnet 3.5等
顶尖模型相近
但训练成本极低
整个训练在2048块
英伟达H800 GPU集群上完成
仅花费约557.6万美元
相比之下
GPT-4o等模型至少要在
万个GPU量级的计算集群上训练
且使用的是性能更为优越的H100 GPU
训练成本约1亿美元
DeepSeek-V3发布后
英伟达高级研究科学家Jim Fan
在社交媒体上表示
DeepSeek是2024年度
开源大语言模型领域的“最大黑马”
近期推出的DeepSeek-R1模型
在数学能力基准测试中
达到了77.5%的准确率
与OpenAI的o1不相上下
在编程领域的Codeforces评测中
达到了2441分的水平
高于96.3%的人类参与者
开源实现“弯道超车”
DeepSeek R1被讨论的焦点
集中在两方面
低训练与使用成本
以及开源
区别于OpenAI
“海量数据投喂”的方式
DeepSeek利用算法
把数据进行总结分类
经过选择性处理之后
输送给大模型
在提高训练效率的同时
也降低了DeepSeek的成本
在DeepSeek的高性价比模型发布后
OpenAI创始成员
Andrej Karpathy表示
未来或许不需要
超大规模的GPU集群了
除了极致性价比
让DeepSeek大模型
脱颖而出的还有
其代码和训练方法完全开源
目前
DeepSeek-R1已经一跃成为
开源社区Hugging Face上
下载量最高的大模型
达10.9万次
这意味着全球的开发人员
正在试图了解这一模型
以辅助他们自己的AI开发
DeepSeek创始人梁文锋表示
开源更像一个文化行为
而非商业行为
在颠覆性的技术面前
闭源形成的护城河是短暂的
即使OpenAI闭源
也无法阻止被别人赶超
加州大学伯克利分校AI政策研究员
Ritwik Gupta表示
DeepSeek-R1的出现证明了
“AI能力没有技术护城河”
并称中国的系统工程师
人才库比美国大得多
他们懂得如何充分利用计算资源
来更高效地训练和运行模型
Meta首席人工智能科学家杨立昆
也在社交媒体表示
DeepSeek成功的最大收获
不是来自中国竞争对手的加剧威胁
而是保持人工智能模型开源的价值
以便任何人都能受益
这就是开放研究和开源的力量
为AI领域带来更多可能
DeepSeek本次“刷屏”
起因是1月20日
其正式发布推理大模型DeepSeek-R1
该模型在数学、编程和推理
等关键领域的表现
能与OpenAI的最强推理模型o1“掰手腕”
但其API调用成本却低了90%-95%
DeepSeek公布的信息显示
DeepSeek-R1在后训练阶段
大规模使用了强化学习技术
在仅有极少标注数据的情况下
极大提升了模型推理能力
1月22日
美国《福布斯》杂志网站表示
DeepSeek R1模型
应用强化学习等先进技术
不仅已跻身世界最强大模型序列
而且完全开源
可供世界上任何人
检查、修改和进一步研发
1月23日
英国《金融时报》网站
刊发评论文章称
DeepSeek的成功标志着
中国在人工智能领域
日益强大的自主创新能力
美国计算机科学家
吴恩达表示
DeepSeek的进展令人印象深刻
他们能够
以非常经济的方式训练模型
最新发布的推理模型
表现非常出色
微软CEO萨蒂亚·纳德拉
公开表示
DeepSeek切实有效地
开发出了一款开源模型
在推理计算方面表现出色
且超级计算效率极高
业内人士表示
通过低成本、高性能
开源共享的模式
DeepSeek正在为全球
科研人员和企业提供更多可能性
撰文:刘昊、王恺 编辑:李飞 排版:李汶键 统筹:李政葳
参考:第一财经、每日经济新闻、澎湃新闻、上观新闻、财联社
光明网出品
来源:光明网