硬科技时代

B站影视 2025-01-30 15:32 1

摘要:1957年10月4日,苏联成功发射了全世界第一颗人造卫星“史普尼克1号”,让美国乃至整个西方世界陷入了极度恐慌。在此之前,美国一直自我感觉良好,认为自己在核弹、导弹和航天领域遥遥领先,没想到却被狠狠打脸。这个时刻也被历史铭记,命名为“史普尼克时刻”(Sputn

1957年10月4日,苏联成功发射了全世界第一颗人造卫星“史普尼克1号”,让美国乃至整个西方世界陷入了极度恐慌。在此之前,美国一直自我感觉良好,认为自己在核弹、导弹和航天领域遥遥领先,没想到却被狠狠打脸。这个时刻也被历史铭记,命名为“史普尼克时刻”(Sputnik moment)。

2024年12月至1月,一家中国创业公司深度求索(DeepSeek)连发3款大模型,让AI领域遥遥领先的美国科技界大受震撼,并引发了英伟达等美国科技股的暴跌,这也被美国投资家马克•安德森(Marc Andreessen)称为另一个“史普尼克时刻”(Sputnik moment)。要知道,马克•安德森可是互联网的一代宗师,曾经参与开发了全球第一个通用浏览器Mosaic,创立了著名的网景(Netscape)公司。

关于DeepSeek在大模型产品上的创新,行业内的报道已经非常之多,老冀在此也就不再赘述。作为一名做了二十多年科技报道的观察者,从DeepSeek暴击美国AI这件事,老冀看到了国内科技行业一个非常明显的趋势,那就是“硬科技时代”已经到来。

什么是“硬科技”?老冀查了一下,其实官方已经有了明确的定义,那就是:“基于科学发现和技术发明之上,经过长期研究积累形成的,具有较高技术门槛和明确的应用场景,能代表世界科技发展最先进水平、引领新一轮科技革命和产业变革,对经济社会发展具有重大支撑作用的关键核心技术。”

老冀这里所说的“硬科技时代”中,“硬科技”确实是其中的一个关键要素,但并不是全部。在这个时代中,“硬科技”还与其他同样重要的要素结合在一起,构成了科技行业的新生态和新特征。

具体来说,“硬科技时代”主要有这么“五硬”:

一、硬科技主导

如果了解中国科技行业40多年的发展历史,你就会知道:硬科技一直都不是主导。

国内最早崛起的一批科技公司,起家是靠给跨国公司做代理,更注重销售和渠道。老冀曾经采访过其中代表企业的高管,你问他怎么搞技术创新,他跟你谈怎么搞管理变革,总之很无语。

此后起来的一波科技公司开始搞研发,但也仅限于做跟随型的产品开发。国外出了创新的产品,咱们把它做得更便宜一些。

到了互联网时代,一开始是资本为王,很多创业公司都是to VC,跟着资本的指挥棒打转。后来产品越来越重要,产品经理大行其道,还是产品指挥技术。

当然,老冀在这里并不是否定中国科技行业的过去,毕竟大家都是时代的企业,在技术落后如此之多的那个年代,你让他们花钱去搞研发,尤其是去搞研究,那是不切实际的幻想。

直到AI兴起这几年,你会发现无论是科技大厂还是创业公司,关注的重点都发生了很大的变化——大家不约而同搞起了研究院,雇了很多研究型人才,搞起了研究。如今,很多创业公司的创始人,本身就是搞了多年研究的科学家。

像DeepSeek这样的公司,搞起“硬科技”已经是得心应手了,人家公司的本名就是“杭州深度求索人工智能基础技术研究有限公司”。DeepSeek的团队先从研究论文开始,一边写论文发论文搞研究,一边攒GPU卡写代码搞开发。

其实,像DeepSeek这样的“硬科技”创业公司,也不是今天才出现的。早在2014年,那一波搞计算机视觉、以商汤为代表的“AI四小龙”就是这么干了。正是因为他们的共同努力,硬科技才会在国内蔚然成风,成为如今科技创业的主流。而如今的风险投资,也纷纷去追逐这些硬科技公司,而不是搞个APP、做点流量分发的“软实力”公司了。

二、硬软通吃

如今,美国市值最高的科技公司是英伟达和苹果,他们虽然卖的是硬件,却把软件与硬件紧密地结合在一起,像英伟达的CUDA平台与GPU卡的捆绑,苹果各种智能终端与操作系统、应用生态的完美融合。如今这个时代,只有做到硬软通吃,才能雄霸天下。

之前国内最风光的科技公司,还是以互联网服务为体现的“软”公司,如BAT。不过,最近几年兴起的科技公司,往往都将硬件作为主攻方向,如造车的“蔚小理”,还有地平线等芯片公司。当然,他们的软件能力也很强,把大模型搬上车也是毫不含糊。

而像DeepSeek这样的软件公司,已经具备了很强的硬件能力。

老冀研究了一下DeepSeek发表的《DeepSeek-V3技术报告》,发现他们花了很多精力在硬件优化方面,比如创新的负载平衡策略、创新的管道并行算法DualPipe、高效的跨节点全连接通信内核、混合精度FP8框架等等。

也正因为如此,他们才得以用并不先进的H800 GPU(综合算力是在美国广泛应用的H100 GPU的70%左右,是目前最先进的B200 GPU的35%左右),训练出了完全不逊于美国AI大厂的大模型。他们甚至还给硬件厂商提了诸如将通信任务从SM卸载下来、统一IB和NVLink网络、支持块和块量化、支持在线量化、支持转置GEMM操作等建议,由此可见DeepSeek研发团队对于AI硬件的熟悉程度。

可以说,未来的科技公司要想做到顶流,要么亲自下场搞硬件,要么深入了解硬件的核心技术;像过去那种写写代码、搞搞流量,就能轻松成长的情况,恐怕不太容易了。

三、硬核创始人

过去,无论是在美国还是中国,一直有个共识的观点,那就是公司做大之后,创始人就应该退居二线,将公司的日常管理交给经验更为丰富的职业经理人。

而如今,在AI改变一切的今天,很多美国科技大厂的创始人都坐不住了,他们发现职业经理人根本无法应对这种行业巨变,于是纷纷从退休或半退状态返回一线,重新抓起了业务。如Google创始人谢尔盖·布林亲自给Gemini大模型写代码,亚马逊创始人贝索斯也回到公司主抓AI,更别提在旗下几家公司来回穿梭、直接与一线工程师交流的“钢铁侠”马斯克了。而这种管理模式,也被称为“创始人模式”。

在国内,老冀听到一个说法,说是很多科技大厂创始人都交班了,而且往往是CFO接班。老冀倒是不以为然。看看国内一线的互联网公司,腾讯和百度的创始人仍然战斗在一线,阿里巴巴的马老师由于特殊原因隐退,换上的CEO仍然是创业的“十八罗汉”之一。再看字节跳动,且不说张一鸣是不是真的退居二线;如今掌舵的,也是公司联合创始人。

再举个例子。如今京东的CEO确实是CFO出身,可是你觉得创始人刘强东离开一线了么?相反,他比之前更频繁地出现在京东的各个高管群中,直接指挥公司的日常运营。

再看DeepSeek这家创业公司,也是典型的创始人模式:创始人梁文锋本身就是搞技术的,他一直在一线,亲自写代码,亲身参与各项业务的决策。也正因为如此,DeepSeek才得以发展得如此之快。

所以说,如今,无论是美国硅谷,还是中国“硅谷”,其实都是“创始人模式”当道。

四、硬汉特种兵

老冀也注意到了DeepSeek还有一个特点,那就是虽然干出了这么惊天动地的大事,公司的规模却仍然很小,据说员工还不到140人,仅仅相当于一些AI大厂研发部门的十分之一。

虽然人数不多,却个个都是特种兵。例如,DeepSeek的核心研发人员中,朱琪豪是北大计算机学院软件研究所2024届博士生,代达劢是北大同一个学院计算语言所2024届博士生,邵智宏是清华交互式人工智能课题组博士生,曾旺丁则出自北邮人工智能与网络搜索教研中心……而据说被小米以千万年薪挖走的“天才少女”罗福莉,硕士毕业于北大计算机学院计算语言所,毕业后加入阿里达摩院机器智能实验室。

老冀发现,这些DeepSeek的核心研发人员有一些共同的特点:都出自国内一流名校,不是北大清华,也是北航北邮;都是研究型人才,发了不少高质量的论文;都很年轻,工作经验不超过5年。

这其实也反映了DeepSeek的用人原则:招最优秀的技术人才胚子,给他们最开放的研究环境,做最有想象力的研究,让员工与公司共同成长。

DeepSeek创始人梁文锋透露,参与上一代大模型DeepSeek-V2 的研发人员,没有一位海归,全部都是本土的。“前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”

DeepSeek的研发团队不做前置分工,而是自然分工。每个人都可以研究自己感兴趣的方向,并且拉团队中的任何人讨论,然后组建团队,随时调用训练集群的GPU卡,无需审批。

例如,前不久发布的DeepSeek-V3大模型用到了创新的MLA(多头潜注意力)架构,就是来自于一位年轻(不过,团队的成员都很年轻)研究员的突发奇想,大家感觉靠谱之后组建了一个研究团队,花了几个月把它跑通了。

DeepSeek的崛起,其实很给很多中国科技公司提了个醒:兵不在多,而在于精。一支强悍的特种兵部队,胜过千军万马。当然,你得给这支队伍特殊的待遇、文化和资源才行。

五、硬寨呆仗

其实在国内,DeepSeek的一飞冲天,不仅仅把美国人搞蒙了,也把国内的科技精英们搞迷糊了。原因很简单:你DeepSeek的创始人梁文锋,之前是搞金融,搞量化交易的,不是正牌搞高科技的呀!搞AI大模型跑出来的,应该是我们纯正的搞软件、搞互联网的才对呀!有一位AI“小龙”的高管,甚至在老冀的朋友圈里质疑:“不是说他们(DeepSeek)有5万张卡么?”言下之意,DeepSeek也是靠堆算力。

当然,如果他仔细研究了DeepSeek发表的技术报告,就知道DeepSeek肯定不只是堆算力,而是在算法和数据领域做了非常多的创新,例如混合专家模型(MoE)、多头潜注意力(MLA)、多令牌预测(MTP)、长链式推理(CoT)、DualPipe算法FP8混合精度等等,都是DeepSeek自己琢磨出来的,很多都是为了把GPU卡的算力压榨到极致。

当然,不可否认,DeepSeek确实是“卡多”。老冀也看到在美国那边,Scale AI创始人兼CEO汪滔(Alexandr Wang)在接受媒体采访的时候,说DeepSeek可能有5万张卡。姑且不论这个说法是否属实,从各个方面得到的信息来分析,DeepSeek拥有的GPU卡数量,恐怕在国内科技公司中能够排到前5位,多到跟字节跳动、阿里巴巴旗鼓相当的水平。

为什么DeepSeek的卡有这么多?因为人家一直就在做AI,而且是奔着AGI(通用人工智能)的远大目标去的。

早在DeepSeek成立之前,梁文锋还在做量化交易的时候,他就对AGI感了兴趣。本来量化交易就要用到很多GPU卡,而要做AGI,显然还需要更高数量级的卡。于是早在2015年,梁文锋就用量化交易赚到的钱囤了100张卡;到了2019年,卡的数量已经增加到1000张了。

2020年5月GPT-3发布,并没有在行业内激起多大的浪花。而已经在AGI路上摸爬滚打了好几年的梁文锋,已经意识到大规模算力平台对于AGI的重要性,于是在第二年建设了“萤火二号”智算平台,把GPU卡的数量堆到了上万。

反观国内那些自命正牌的AI创业公司,基本上都是因为2022年11月ChatGPT发布后一炮走红,想了想自己原来就是搞互联网的,甚至是搞计算机视觉的,舍我其谁?老冀在朋友圈里看到了好几位搞互联网的朋友,都认为这一波绝对是自己的机会,于是兴致勃勃地杀了进去。

首先像王慧文等成功的互联网创业者,他们有成体系的互联网创业打法,搞地推、搞流量、做APP、快速迭代。问题是,如今AI大模型的创业逻辑不是这样的,首先你得把技术方向搞清楚了,然后投入数倍于之前互联网创业的资源,也才有个开始。正因为如此,王慧文投入AI才半年就抑郁了,并且果断退出。

当然,你会说王慧文不懂AI,那些之前就懂技术、也搞过AI的创业者,是不是就能成功呢?恐怕希望也不大。因为虽然是同一棵科技树,向上生长的时候已经出现了分叉。

例如,当年“AI四小龙”确实也都是搞AI,微软亚洲研究院的AI论文也发了不少,但是他们以前大部分都选择了计算机视觉这个方向,而这一波大模型则走了另一个方向——“语言”。

因此,当ChatGPT掀起大模型浪潮之后,从2023年开始,一大批原来就搞AI的技术精英们纷纷创业,投身于其中。但是,正如老冀的好朋友程苓峰所说,他们更多地是攒局,而不是从0到1,很难持续。

于是,刚到2024年下半年,所谓的“大模型六小龙”当中,已经有两家公开放弃了AGI的梦想,不再做预训练和通用大模型了;还有一家因为创业者的贪婪,陷入了与投资人的撕扯之中。

反观DeepSeek,在互联网人心目中确实不是“正规军”,但是人家确实在通往AGI的道路上,辛辛苦苦耕耘了至少五六年的时间了。人家不成功,还等着你们这些“正规军”成功么?

写到这里,老冀不仅想到了曾文正公给湘军制订的“结硬寨、打呆仗”六字诀。说到底,就是不求速胜,而是一步一个脚印地巩固战果,最终达成胜利。

硬科技主导、硬软通吃、硬核创始人、硬汉特种兵、硬寨呆仗这“五硬”,就是老冀观察到的、全球以及中国一流科技公司的特征。如今,我们已经进入硬科技时代;未来,那些要想成为世界一流的中国科技公司,也必须“硬”起来。

对于那些更有理想的中国科技公司来说,这恐怕也是一个更加幸福的时代,因为与他们的前辈相比,他们将更加接近全球科技的最高峰!

来源:老冀说科技

相关推荐