杭州六小龙之深度求索(DeepSeek)(附:创始人梁文锋采访实录)

B站影视 2025-02-02 21:04 3

摘要:杭州这三十年一直是一块科技创新的沃土,孕育出不少科技企业。最近有六家极具特色的科技企业脱颖而出,被称为“杭州六小龙”:他们分别是:深度求索(DeepSeek),宇树科技(Unitree),云深处(Deep Robotics),强脑科技(BrainCo),群核科

杭州这三十年一直是一块科技创新的沃土,孕育出不少科技企业。最近有六家极具特色的科技企业脱颖而出,被称为“杭州六小龙”:他们分别是:深度求索(DeepSeek)宇树科技(Unitree)云深处(Deep Robotics)强脑科技(BrainCo) 群核科技(ManyCore)

深度求索(DeepSeek)

2025年1月20日,深度求索(DeepSeek)发布AI大模型DeepSeek R1,一夜成名。一度让美国纳斯达克下跌3%,英伟达下跌超16%。

一家中国的企业能如此震动美国股市的恐怕历史上只有这一次。

深度求索于2023年7月17日,由知名量化资管巨头幻方量化创立,专注于开发先进的大语言模型(LLM)和相关技术的创新型科技公司。

深度求索(DeepSeek)的创始人兼CEO梁文锋1985年出生于中国广东湛江。硕士毕业于浙江大学信息与通信工程。

梁文峰毕业后选择了创业,后于2015年成立幻方科技有限公司。2021年,幻方量化的资产管理规模突破千亿,跻身国内量化私募 “四大天王” 之列。

深度求索(deepseek)官网入口: DeepSeek

深度求索(DeepSeek)的发展历程如下:

2023 年 7 月:DeepSeek 成立,总部位于杭州。2023 年 11 月 2 日:发布首个开源代码大模型 DeepSeek Coder,支持多种编程语言的代码生成、调试和数据分析任务。2023 年 11 月 29 日:推出参数规模达 670 亿的通用大模型 DeepSeek LLM,包括 7B 和 67B 的 base 及 chat 版本。2024 年 5 月 7 日:发布第二代开源混合专家(MoE)模型 DeepSeek-V2,总参数达 2360 亿,推理成本降至每百万 token 仅 1 元人民币。2024 年 12 月 26 日:发布 DeepSeek-V3,总参数达 6710 亿,采用创新的 MoE 架构和 FP8 混合精度训练,训练成本仅为 557.6 万美元。2025 年 1 月 20 日:发布新一代推理模型 DeepSeek-R1,性能与 OpenAI 的 o1 正式版持平,并开源。2025 年 1 月 26 日:DeepSeek 登顶美区 App Store 免费榜第六,超越 Google Gemini 和 Microsoft Copilot 等产品。

目前深度求索(DeepSeek)已经取得天使轮融资20亿,创下中国AI初创企业天使轮最高纪录,资方包括红杉中国、高瓴资本、腾讯等。

一家初创型的科技企业,在如此短的时间取得如此卓越的成绩,是偶然还是必然?

中国这么多年的发展,在科技方面投入巨大,特别是自美国开始对中国的科技企业卡脖子后;中国科技企业以及从业人员一直都在深耕细作,潜心技术的进步和发展;所以,能出现深度求索这样的企业应该是必然。

不过,科技的发展通产具有偶然性。对于前沿科技,大家的方向可能都不很明确,都在摸索向前,深度求索(DeepSeek)或许正是那个摸对方向的幸运儿。

不过运气总是会站在努力且有准备的一方。

梁文峰自2015年成立幻方量化开始,就已经接触机器学习等人工智能方面的技术,而自研“萤火一号”和“萤火二号”更是为开发AGI大模型积累了丰富的经验。

2023 年 5 月、2024 年 7 月,36 氪旗下的「暗涌」团队分别采访了很少露面的 DeepSeek 创始人梁文锋。从采访过程中梁文锋的回答或许也能看出这家企业被幸运所眷顾的原因。

「暗涌」是这样评价梁文峰:

“这位技术理想主义者,提供了目前中国科技界特别稀缺的一种声音:他是少有的把「是非观」置于「利害观」之前,并提醒我们看到时代惯性,把「原创式创新」提上日程的人。”

暗涌:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做探索?

梁文锋:因为我们想参与到全球创新的浪潮里去。过去中国公司习惯别人做技术创新,而我们拿过来变现,但这不是理所当然的。这一波浪潮,我们的出发点不是趁机赚一笔,而是走到技术的前沿,推动整个生态的发展。

暗涌:大模型是重投入游戏,不是所有公司都有资本只研究创新,不先考虑商业化。为什么中国公司包括不缺钱的大厂,这么容易把快速商业化当第一要义?

梁文锋:过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去的惯性束缚了,但它是阶段性的。

暗涌:外网说DeepSeek雇佣了“一批高深莫测的奇才”,做出DeepSeek v2的是些什么人?

梁文锋:哪有什么高深莫测的奇才,都是一些顶尖高校的应届毕业生、还没毕业的博士四年级、博士五年级实习生,还有毕业没几年的年轻人。

暗涌:这种发散性灵感的诞生和你们完全创新型组织的架构很有关系。幻方时代,你们就很少自上而下地指派目标或任务。但 AGI 这种充满不确定性的前沿探索,是否多了管理动作?

梁文锋:DeepSeek 也全是自下而上。而且我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要 push 他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个 idea 显示出潜力,我们也会自上而下地去调配资源。

暗涌:一种松散的管理方式也取决于你们筛选到了一批强热爱驱动的人。听说你们很擅长从细节招人,可以让一些非传统评价指标里优秀的人被选出来。

梁文锋:我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。

暗涌:但你们不参与融资,很少对外发声,社会声量上肯定不如那些融资活跃的公司,怎么确保 DeepSeek 就是做大模型的人的首选?

梁文锋:因为我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。

……

截止2025年1月31日,美国三大科技公司(亚马逊、英伟达、微软)开始承认DeepSeek的优势,并上线部署支持用户访问DeepSeek-R1模型。

来源:走进科技生活

相关推荐