摘要:DeepSeek成立时间太短了,距离现在仅15个月而已,成立于2023年的9月。再者,与阿里、腾讯、百度这样动辄几万人的大厂相比,DeepSeek小的“可怜”,初创时只有50人,现在也就200来人,是一家既新又小的公司,所以之前没听过很正常。
近日 一家来自中国浙江的大模型火爆全球!
运算成本爆杀美国耗资数十亿的大模型
我们戏称DeepSeek为 AI 界拼多多
DeepSeek究竟是一家什么样的公司,为何之前都没听说过?
DeepSeek成立时间太短了,距离现在仅15个月而已,成立于2023年的9月。再者,与阿里、腾讯、百度这样动辄几万人的大厂相比,DeepSeek小的“可怜”,初创时只有50人,现在也就200来人,是一家既新又小的公司,所以之前没听过很正常。
今天带大家看看DeepSeek的成长与来源
创始人梁文锋
梁文峰出生于 20 世纪 80 年代广东五线小城,父亲是小学老师。在周围人对读书价值存疑的环境下,他坚持求学,毕业于浙江大学,主修软件工程且专注人工智能方向,本硕期间就展现出对计算机科学和数学的热爱。
2008 年,梁文锋几经考虑后,还是决定“先富起来”,做起了金融,主攻对冲基金。梁文峰投身量化对冲领域研究,开启职业生涯探索。
2015 年,他创立幻方量化,借助 AI 技术在量化投资领域迅速崛起,管理规模不断扩大,一度突破千亿,成为国内量化私募 “四巨头” 之一,量化交易始终是核心业务,即便在后续 AI 探索中,也持续为公司发展提供支撑。
2016 年,幻方量化上线 AI 策略,2017 年实现投资策略全面 AI 化,标志着其在金融科技融合道路上的大步迈进。2019 年,幻方 AI 成立,自研 “萤火一号”“萤火二号” 等强大的 AI 集群,为 AI 研究提供坚实算力基础,也显示出公司对技术研发的长远布局。
2023 年 7 月,梁文峰创立 DeepSeek,全力进军 AI 大模型研究开发领域,致力于通用人工智能(AGI)探索,在短短时间内推出多个有影响力的模型,引发行业震动。
DeepSeek 团队特色构成
1.成员构成年轻化且本土化:团队以顶尖高校应届硕博毕业生和年轻研究员为主力,如来自清北等高校的应届生、在读生在创新中表现活跃。像高华佐(北大物理系)、曾旺丁(北邮)、邵智宏(清华)、朱琪豪(北大)、代达劢(北大)、王炳宣(北大)、赵成钢(清华)等成员,他们有的在求学期间就参与 DeepSeek 核心项目,从 DeepSeek LLM v1 到后续版本一路成长,实习阶段也能作出关键创新成果,展现出强大的科研潜力。团队 leader 级别也偏年轻化,多为毕业 4 - 6 年的精英,如吴俣(北航博士毕业)、郭达雅(中山大学博士毕业),带来活力与冲劲。
2.重视模型算法与硬件工程协同:DeepSeek v3 论文 200 位作者分工明确,既有专注 AI 算法和数据的成员,也有一批从早期项目就投身算力优化的人员,他们通过软硬件协同设计,发表《Fire - Flyer AI - HPC》论文,依托幻方 AI 的萤火 2 号万卡集群,以低能耗、低成本优势实现远超同类的训练效能,如以 Llama 3 405B 的 1/11 算力训练出性能卓越的 DeepSeek - v3。成员来源广泛,涵盖英伟达、阿里云、幻方 AI 等,经验与技术相互交融。
DeepSeek 创新成果与行业影响
1.模型创新:DeepSeek - V2 推出的 MLA(Multi - head Latent Attention)架构是重大突破,用全新的多头潜在注意力机制替代传统多头注意力,大幅削减计算量与推理显存占用,引发行业广泛关注与效仿,被赞为年度最佳架构之一。同期的 GRPO(Group Relative Policy Optimization)强化学习对齐算法,作为 PPO 变体 RL 算法,舍弃 critic 模型,从群体得分估算 baseline,极大减少训练资源需求,在阿里 Qwen 2.5 等模型中也有作用,推动行业算法进步。
2.引发价格战与行业变革:DeepSeek - V2 以极高性价比登场,推理成本低至每百万 token 仅 1 块钱,约为 Llama 3 70B 的七分之一、GPT - 4 Turbo 的七十分之一,瞬间打破市场价格平衡,引发国内大模型价格战,促使大厂纷纷降价,推动 AI 技术普惠化,让更多用户和开发者受益,被誉为 “AI 界的拼多多”。
梁文峰的理念与眼光
1.普惠 AI 与开源文化:梁文峰秉持普惠 AI 理念,坚信无论是 API 还是 AI 产品,都应服务大众,让人人用得起。DeepSeek 定价策略亲民,降低大模型 API 价格推动行业价格调整。同时,坚定奉行开源文化,视开源为推动技术进步的文化根基,认为闭源护城河短暂,团队成长与知识积累才是核心竞争力,通过开源共享代码与成果,吸引全球开发者共同完善,在社区积累良好口碑。
2.技术与不商业平衡追求:强调创新不能单纯由商业驱动,需好奇心和创造欲支撑。DeepSeek 目标是立足技术前沿,构建生态系统,先专注基础模型研究,暂不急于商业化应用,待技术成熟后,期望其他公司基于其成果开发 toB、toC 业务,形成产业上下游协同发展格局,而非短视逐利。
3.直面差距、立志创新突破:梁文峰清醒认识到中国 AI 与美国的差距根源在于原创创新不足,过往多是跟随模式。DeepSeek 决心打破这一困境,从模型结构等基础研究入手,押注数学和代码、多模态、自然语言等关键方向探索 AGI,虽挑战重重,但已迈出坚实步伐,展现出中国 AI 企业走向世界前沿的勇气与决心。
基于行业
相较于国内多数 AI 公司 “既要又要” 的商业路线,正如其名:深度求索,
DeepSeek 专注研究、技术攻坚且开源共享的模式独树一帜。在人才策略上,摒弃海外挖人老路,深耕本土人才培养,挖掘高校潜力新人,以热爱和好奇心为筛选标准,打造出高凝聚力、高创造力团队。在面对大厂竞争时,DeepSeek 不怵不惧,凭借灵活组织架构、持续创新能力,在大模型赛道抢占一席之地,为中国 AI 创业公司提供全新发展思路:立足本土、聚焦创新、协同生态、放眼全球,有望在未来 AI 浪潮中持续领航,助力中国从 AI 追随者转变为创新贡献者。
随着 DeepSeek V3 的崭露头角,科技巨头们感受到了巨大的压力。OpenAI,一直以来在人工智能领域处于领先地位,如今不得不正视这个强有力的新对手。其先进的技术和创新成果可能受到 DeepSeek V3 的冲击,这或许会反映在其股价上,面临着投资者重新评估和市场信心波动的挑战。
OpenAI、Facebook、英伟达股价等股价或将面临挑战?
来源:新知探索舰