摘要:事无绝对,DeepSeek也是同样,今天就啰嗦两句:从人工智能N落N起演进中,审视DeepSeek的中国式创新。观点未必正确,不喜勿喷。
文 | SE7EN_CHLOE
随着春节前后数个大模型陆续发布,人工智能的网络热评已经从技术圈扩大到社会圈、朋友圈。
国内外好评与差评,热捧与诋毁,在我看来都是浮云,它既不会影响DeepSeek自身的迭代,也不会掣肘同行探索脚步。
事无绝对,DeepSeek也是同样,今天就啰嗦两句:从人工智能N落N起演进中,审视DeepSeek的中国式创新。观点未必正确,不喜勿喷。
提及人工智能(AI)和现在火热的大模型,有几个问题摆在面前:
1.AI赛道中为什么大模型当今被炒得这么热?
2.OpenAI做的ChatGPT真的不如DeepSeek吗?
3.DeepSeek是未来AI发展的方向吗?
我的回答:1.适者生存。2.不是。3.未必。
01摸着时间脉落,先从AI起落沉浮说说发展史上几个关键研究成果,然后再做比较。
互联网上能看到太多的人工智能发展史或编年史,我就不赘述了。
上世纪40年代开始人工智能的混沌探索,其核心是想制造出类似人类思考和行动的机器。造出这个智能体:
1.你得跟人交互吧(如果人类语言不能直接听懂,人类通过电脑发送通用指令应该被接受)
2.你得有所谓的逻辑思维和运算能力吧(其实人类也没有完全搞清思维是怎么回事,从神经元模拟开始,生物科学进一步,人工智能进一步)
3.你得能自如移动吧(例如机器狗和具身智能机器人)
科学家很早就知道,造一个铁皮壳子很简单,机器人的行为动作取决于它的大脑,所以设计它的思维模式才是根本。
1956年,达特茅斯学院研讨会上正式使用了人工智能(artificial intelligence,AI)这一术语后,早期的各种AI流派研究角度各有不同,他们做出了能够证明部分定理的程序,也写出了棋类简单游戏,研究过通过符号来解读人类获得知识的方式,但实话说来,从理论上并没有研究出可行的路线。
那时的计算机编码和逻辑推理设计,语言翻译搞不定,视觉感知更别提,加之当时计算能力和数据存储限制,也就是路线和能力皆不具备。摸着石头过河,没投资、没技术、普世悲观,AI寒冬纪。
02走的人多了,也便成了路。第一次横空出世的引领者是机器学习(ML)走出新路线。
机器学习这个方法早在1959年就被提出,它的原理可以概括为处理数据、提取特征、训练模型、改进性能、给出结果。
是的,我们后来所知道的DeepBlue机器战胜国际象棋棋王卡斯帕罗夫、AlhpaGo战胜围棋冠军李世石和柯杰、某音某宝精准推送音乐和商品,不都是这条路线吗。所以回头看,人工智能的研究是选择了机器学习这条赛道。
但为什么会是机器学习呢?
我们看标黑字体的第四个,改进性能,没错,流程中加了改进性能,实际上包括了运用逻辑门电路(与、或、非)建立反馈机制,而这就是神经网络的雏形。借一张C友的图。
我只有不断的纠错反馈才能让我变的更强大。好熟悉,有没有。跳出历史周期率的第二答案——自我革命。
言归正传,1982年,约翰·霍普菲尔德(John Hopfield)在自己的论文中重点介绍了具有记忆和优化功能的循环(递归)神经网络(RNN)。
这个RNN突破在哪里呢,传统的机器学习里神经网络算法,输入和输出是直线。
RNN最大的区别在于每次都会将前一次的输出结果,带到下一次的训练,这使得每一个后位数据都与前序数据产生关系影响,通过计算相似关系而预测后一数据。例如,我问What time is....它会根据前三个单词的意思和与之关系,预测最后一个词是it。
1986年,戴维·鲁梅尔哈特(David Rumelhart)、杰弗里·辛顿(Geoffrey Hinton)和罗纳德·威廉姆斯(Ronald Williams)等人共同发表了一篇名为《通过反向传播算法的学习表征》的论文。
在论文中,他们提出了一种适用于多层感知器(MLP)的算法,叫做反向传播算法(Backpropagation,简称BP算法)。
BP算法是什么,好比①②③④⑤五位同学传信息,当信息传到②号时,他在往③号传的同时,还要向①号发送反向信息检验传递的准确性。
同理,③④⑤号同学也会逐个反向验证,通过计算信息传递的损失,得出各位同学能力的大小个头(称为梯度),利用算法来调整梯度权重,从而最小化损失。
我认为RNN和BP的诞生是核弹级别,让机器学习真正意义上活了,可行了,有路可走了,起码是找到方向了。
这算是大创新,国际大奖的认可比较迟,直到2024年,约翰·霍普菲尔德与杰弗里·辛顿(Geoffrey E. Hinton)才共同获得了诺贝尔物理学奖。Better late than never,发展进程不断为后人探索已经证明了创新的价值。
03循环递归神经网络(RNN)和反向传播算法(BP),确实是两把好工具。但是在应用中不免遇到问题。比如,传递信息的同学太多,每个同学都要向后面所有同学确认,计算量越来越大怎么办?相邻站位的同学大小个头太接近,或者差距太大(梯度近似或失真),计算差值不准确怎么办?
1997年,德国计算机科学家于尔根·施密德胡伯(Jürgen Schmidhuber)与其弟子塞普·霍克赖特(Sepp Hochreiter)开发了长短期记忆网络(LSTM)。
LSTM有什么特别之处呢,它引入了记忆细胞、输入门、输出门和遗忘门的概念。
记忆细胞负责保存重要信息,输入门决定要不要将当前输入信息写入记忆细胞,遗忘门决定要不要遗忘记忆细胞中的信息,输出门决定要不要将记忆细胞的信息作为当前的输出。
打个比方,当一本小说我看到中间部分时,离我当前最近的前一段落,可能是我记得最清楚的,而开头的一此细节可能就记得不那么清楚了,这叫短时记忆,前面提到的RNN就是那种短时记忆。离得越近,相互影响越强。
而LSTM会选择重要信息并加以权重,那看到小说中间的时候,我还是会想起前面埋下的伏笔。
由此来看,LSTM是RNN的高级形式,与BP有异曲同工之妙。
但是德国大叔对自己成果在AI学界被忽视表示强烈不满,批评同行、开喷Meta、怒怼图灵奖,有点儿祥林嫂的感觉,有兴趣的小伙伴可以自己搜来看。
另一个事件是2006年,杰弗里·辛顿正式提出深度学习概念。主要观点是:多隐层的人工神经网络具有优异的特征学习能力,学习到的数据更能反映数据的本质特征有利于可视化或分类。
之前机器学习的RNN到BP、LSTM路线,构建的有输入、有反馈、有权重、有输出的循环模式。总体上它可以看作是简单的神经网络,也就是它就像在模拟生物神经元的工作方式来处理数据。这就是人工智能模仿生物神经元思维的路线。
单一的神经网络只能对连续的序列(例如语音、文本)单线条的处理,而多线程直至1998年卷积神经网络(CNN)的出现,就好比一台由无数神经元组成的并行机器,要有组织有规模的工作了。
可以想象这是比较耗费计算资源的一项工程,从此,人工智能研究正式开启了算力比拼。
我认为相比LSTM和CNN这种导弹级别的成果,深度学习概念的提出是核弹级别的创新。
因为它引出一条看似可行的AI之路,终于使得原本用于图像处理的芯片(GPU),参与到更加复杂的计算之中。芯片商业帝国从此重新划分,原本的图像领域单项冠军英伟达(NvIDIA)市场份额逐渐超过CPU厂商Inter和AMD,独领高性能计算风骚。
04AI领域研究的大牛很多,自从深度学习被提出以来,借着大数据和计算机硬件的发展,使得深度学习得以乘势推广应用。
以此而生的深度神经网络,在AlhpaGo战胜围棋冠军李世石和柯杰过程中异常出彩。是的,研究室里的函数无法引起社会关注,广告效应才会让风投基金端着大把的金钱送到面前。新一轮的人工智能热潮又将到来。
2017年12月,Google机器翻译团队发表了重磅论文《Attention is all you need(你所需要的,就是注意力)》,提出使用“自我注意力(Self Attention)”机制来训练自然语言模型——Transformer。
Transformer能够有效捕捉序列信息中长距离依赖关系,相比于以往的RNNs,在处理长序列时的表现更好。自注意力机制的另一个特点是并行计算,因此Transformer结构让模型的计算效率更高,加速训练和推理速度。
Transformer的出现是核弹级别的创新,它彻底改变了深度学习的发展方向,研究者们以它为大模型基座,建立Transformer架构去搭建训练模型,由此才衍生出一系列的深度学习产品。
接着要提到的就是ChatGPT的横空出世,惊天一响,看到通用人工智能(AGI)真实落地进入人类社会的实现可能。看官们都比较熟悉,我就不多说了。
05在这里我想多说一句,当下的大语言模型(LLM)为什么成为主流。
以上谈到的人工智能发展,只是AI的一条主线,但不是全部。
当你从树枝顶头回望树干时,技术路线是如此清晰;而你站在地上沿着树干看向四处发散的苍天大树时,不一定知道哪条会长到理想的高度。
本质上来说,从机器学习到大语言模型是一条生物神经学+数学+统计学的融合道路,依赖于算法、算力和数据三大基本要素。
算法——好点子(生产工具),算力——好力气(生产力),数据——基本盘(生产资源)。
让机器学会学习,实际是训练它先掌握人类的先验知识,然后让机器自己学会分析,最好能自己研究出新知识(生成式AI)。
拿下围棋举例,你给它上万张棋谱,目的是训练它记住,并且找到致胜规律,分析什么时候走哪一步棋才是最优解。
做出一个承载算法、算力和数据的模型,让它来实现真正的人机交互。这些模型有自然语言处理的(NLP:文本生成、机器翻译、人机问答),也有计算机视觉的(CV:图像识别、视频生成)。反正就要整一个体量大、计算能力强的大模型,去封装储存你那些牛X的算法、昂贵的算力、海量的数据。
Transformer出生之前,AI的优先方向其实是视觉领域,大家都觉得深度学习和卷积神经网络在解决图像视频方面更有出头之日,而且并不看好机器翻译和文本生成有什么商业应用价值。
特别是2012年,杰弗里·辛顿(是他,是他,又是他)和他的学生Alex Krizhevsky设计的Alexnet,在图像领域竞赛获得冠军且大幅提升准确率,掀起一波研究应用高潮。
国内人工智能第一代“四小龙”——商汤、云从、旷视、依图,都是CV起家。风来的快,去的也快。阿里、海康威视等自研视觉算法达到一定程度后,“四小龙”基本上听不到声音了。人工智能在视觉领域的应用,并没有孕育出新算法,也没有拓展新场景。
如果落地应用(赚钱)不能反哺技术研究(或是说提出新需求,刺激技术创新),这条路走着走着就暗淡无光了。
反而是2015年成立的OpenAI坚持自然语言处理(NLP)创出了一片天。随着Google和OpenAI确立“预训练-基础大模型训练-指令微调-反馈优化-奖励模型-强化学习”这一流程范式,大语言模型走上权力王座,不管步骤怎么变,不管算法怎么创新,你都得整个LLM出来。
参与入局玩家既有Google、Meta、阿里、百度、腾讯、抖音等大厂,又有OpenAI、月之暗面、DeepSeek等纯AI公司,还有国字号的科研机构。
一时间,百模飞舞,颇有2000年前后互联网新兴之气象。
06写到这里,有些AI领域的技术成果(知识图谱、贝叶斯网络、无监督学习等)我没有来得及说,不过也没有关系,不影响大家对大势的阅读分析。
2024年12月,DeepSeek发布通用模型V3。2025年1月20日,DeepSeek发布推理模型R1。1月28日发布多模态模型Janus-Pro-7B。
DeepSeek发布的产品是不是划时代的?与前文提到的BP、深度学习、Transformer具不具备同样核弹级意义?是否改变了AI研究的进程?
带着这些问题,我们从技术本身来看看DeepSeek从V3到R1的与众不同之处。
特点一:强化学习(RL)的运用方式。强化学习是机器学习的一种方法,前面提到的大模型范式中,强化学习是其中的一个环节。
通俗来讲,就好比一条狗在做对和做错中,不断挨打和得赏,这些奖赏使得它懂得调整自己做出的选择,随着奖赏积累越来越多,狗做出的选择也越来越符合主人的意图。
Alhpa的那条狗就是这么驯的,效果不错。
DeepSeek有什么不同之处呢,在做出R1之前,DeepSeek做了一个版本叫做R1-zero,这个R1-zero没有做预训练和监督微调,没采用通用的范式,直接上强化学习(RL)。然后在R1-zero基础上,用少量的高质量标注数据再跑一次RL,做出了R1。
DeepSeek的试验证明了强化学习的重要性、有效性、优先性,纯RL也能做出推理模型。而且,如何运用RL,并不一定要刻板地遵守已有范式。
特点二:顿悟现象(Grokking)的精确表达。在我们的认知里,机器就是机器,它把我们已有的知识学好用好就不错了,“灵光一现”“开窍了”还得是人类。
机器“顿悟”现象是什么?中科院院士陈润生曾经形象的解释过,“你训练一个神经网络的过程中,一遍它不懂,两遍也不懂,第四遍还不懂,第五遍一下学会了,就像小孩学东西一样,教一两遍不懂,教到N+1遍突然就学会了。”
顿悟现象(Grokking)在大模型推理中出现,让人类第一次感受到了机器可以产生的“高阶思维”。
“顿悟”并不是DeepSeek最先发现的,Google和OpenAI的团队在2023年就在大模型训练时发现这一现象,并且对生成条件和原理做了一定的探索。
但是,DeepSeek把“顿悟”写在公开技术文档里,并体现在应用的思考流程上,让用户看得到并且可以评判的。
当你用DeepSeek R1深度思考模式提出复杂问题时,模型会突然停下思考,自主修正推理路径,甚至用自然语言标注出它在思考,然后给出思考后的答案。
不管你们怎么看,当我看到屏幕前“等等,等等。这是一个顿悟时刻。让我们一步一步地重新评估一下,以确定……”这些字符时,这一刻我是挺震撼的,之前顿悟只限于AI科学家的研究范围,而DeepSeek把它带到眼前。
特点三:蒸馏模型(Distillation)的巧妙设计。蒸馏也不是什么新词,听上去高大上,葡萄酒蒸馏之后就是白兰地,啤酒蒸馏之后就是威士忌,米酒蒸馏的话应该是二锅头吧。
大模型蒸馏其实也好理解,随着大模型的参数越来越庞大,应用端在处理某一领域问题时其实用不上如此庞大的模型。如果我是一名拥有百科全书知识的老师,那我可以把我的数字知识教给一个学生,他就可以搞定数学方面的问题。
各个模型公司普遍都在做蒸馏,这是很正常的一种技术方法。
我女儿小学五年级,数字老师在班级每组指定了1个学习好的同学作组长,每日计算小测试题,老师把组长们的题先批改完,讲清问题和方法,然后组长们就负责本组所有同学的批改和答疑。
DeepSeek 团队在蒸馏方面是这样做的,他们使用R1生成的数据,对友商(雷军语录)的多个小模型进行了微调。结果证明,蒸馏后的小模型,在推理能力上得到了显著提升,甚至超越了在这些小模型上直接进行强化学习的效果。
雷军说:友商是XX。友商气不气,真生气。这几天看到已经有人说数据抄袭了。
我觉得更应当关注的是,为什么蒸馏后的小模型,比强化学习的效果要好。毕竟俗话都说,凤凰下鸡——一代不如一代。
DeepSeek的R1模型生成过程中有没有直接蒸馏国外友商原模型数据,我不知道。但DeepSeek蒸馏的使用手册,人家发布的时候就写在技术文档里的。我只想说,方法很巧,还可以进一步尝试。
特点四:编程语言的神之选择。这本来是个小事,最近两天有新闻在炒,我总结一下,顺便也把它算成一个特点。
事情是这样的,DeepSeek在使用英伟达GPU训练模型时,把132个流式处理器中的20个原来用于计算的,修改成负责服务器间通信传输,绕过了硬件对通信速度的限制。
修改使用的是英伟达PTX语言,而不是CUDA语言。有媒体言,DeepSeek使用底层汇编语言做优化,牛XPLUS。
用“人话”来解释一下,程序语言是人和机器沟通的工具,是中间的对话翻译。
英伟达的对话工具包括两部分,底层翻译PTX,高级翻译CUDA。
程序员们日常工作都是与CUDA打交道,在CUDA上写代码,CUDA会翻译给PTX,PTX再交由芯片执行。
DeepSeek为什么不用CUDA,而使用底层翻译直接开干呢?
我猜有两个原因,一是技术能力强,具备直接写汇编语言的能力,一捅到底。
二是DeepSeek用的是H800芯片(制裁后专为国内市场出品,性能低于H100),后续被裁到H80(性能更低,美国自己都不用),万一连CUDA这种翻译也裁,用PTX起码也算留个后手。
三是打通与芯片对话的全链条,以后也具备在其它友商GPU上复刻的可能性。真到英伟达全系列GPU芯片再被制裁出口的时候,其它GPU我也能做通。以上都是瞎猜的。
更重要的是,DeepSeek的R1本身就是推理模型,它编程不赖,能不能用它给自己写PTX,DeepSeek有没有这样尝试就不知道了。
这好像一个鸡生蛋的循环。用PTX写程序优化了R1,R1生成PTX的程序,写出的程序还可以继续优化R1。
07DeepSeek强不强、新不新、抄没抄,各有各的看法。
我说下自己对DeepSeek创新的评价:
从技术创新看,DeepSeek并没有颠覆AI技术路线。甚至在创新程度上,远未达到核弹级水平。
之前AI发展史的铺垫可以看到,那些重要成果,是具有历史意义的突破。RNN、BP、LSTM、DL……要么是技术引领方向,要么是路线理念开创。
DeepSeek最具价值的创新,在于研究过程中巧妙的设计、多种技术融合、同等强劲甚至略有领先的性能,以及体现出大幅提升的效率。
AI界的领头羊OpenAI在2024年5月推出GPT-4o,9月发布推理模型GPT-o1。
主要对手Anthropic公司2024年发布最新模型Claude 3.5 Sonnet。
2024年友商这几款产品的性能也一直在沿着平滑梯度升级。
只是DeepSeek这一轮短时间内费效比的提升幅度,比太平洋对岸友商快了太多,怎能让人不侧目。
从探索方向看,DeepSeek最为称道的是坚持算法。
大语言模型有一个叫做规模化法则(Scaling Law)也称尺度定律,被业界认为是大模型预训练第一性原理。
简单来说,就是随着模型大小、数据集大小和计算资源的增加,堆越算力和数据,获得的收益就会越大。俗称越多越牛X。
然而,随着模型规模的增大,每增加相同数量的参数或计算资源,获得的性能提升逐渐减少,这叫做边际效益递减现象。
俗称,卷不动了。
不是其它友商没有在做算法,财大气粗、兵强马壮的OpenAI、Meta、Anthropic,都是不缺资源、不缺人才的主。
像DeepSeek这么年轻又小的团队,敢于打破传统尝试算法优化,并且做的通、做的好。这才是真的长脸。退一步说,就算DeepSeek做出的V3和R1略有不及友商的最新版本,那已经是了不起的成就了。
从历史进程看,集中在语言大模型(LLM)竞赛的各个团队,很像二十年前我玩的一款MMORPG游戏——魔兽世界(WOW)。
魔兽世界游戏中,玩家组成40人(或25人)的团队进入一个大型副本空间,一步步探索地图、清理小怪,击杀一个个守着关口的BOSS。
一直以来,美国、欧洲、亚洲地区各个服务器里的优秀公会,在版本开放高级副本后,都会组织团队在竞速击杀,看谁能用最少的时间通关。
但是,人工智能这个副本,路是未知的,最终BOSS在哪里也是未知的,只有一步步的探索。
也许OpenAI的ChatGPT拿下第一个BOSS的世界首杀(FD,First Down),但其它公会也在第二、第三个BOSS上你追我赶,没有谁是次次FD。
那么今天,国服非知名公会DeepSeek,克服了刻意制造服务器延迟(芯片制裁),在极短时间内(成立不到1年半),集合一批新玩家组成团队(211TOP高校应届生等),装备等级和药品补给落后(成本显著低于友商)的前提下,世界首杀第N个BOSS。
并且DeepSeek创设新的击杀方法,击杀后公布技术文档,制作击杀视频对全球玩家开放(开源)。
未来,会有更多的美服和国服公会拿到后面BOSS的首杀。
通向AI最终BOSS可能会像迷宫一样,走其它探索击杀的不同道路。
但是,这都不妨碍DeepSeek在这一轮书写浓墨重彩一笔。
从社会影响看,人工智能的发展唤起全社会动力,从来不是出自实验室,而是应用端的重大事件。
就像之前说过的,研究室里的函数无法引起社会关注,广告效应才会让风投基金端着大把的金钱送到面前。
因为有IBM的超级计算机“沃森”在美国著名知识问答节目《危险边缘》中战胜两名人类选手,自然语言处理(NLP)和人机交互才引发更多商业兴趣。
因为有DeepMind的AlphaGo先后战胜世界冠军李世石和柯杰,大众才关注到了深度神经网络、无监督学习、强化学习、蒙特卡洛树搜索。
因为有波士顿动力长期研发的四足机器人(Spot)和人形机器人(Atlas),并且开源了部分底层代码,人们才看到越来越多的科研机构和初创企业做出更新更好的产品(2025年春晚亮相的宇树科技产品)。
先行者在大洋彼岸,他们理所当然的认为创新的策源地在那里,硅谷才是最好的科创环境。
但这一次,DeepSeek领先了一步。
“国运级别产品”评价虽有些过,但这也是很多灯塔国精英难以接受的。
看看Anthropic公司CEO Dario Amodei发布的一篇颇有火药味的所谓深度分析报告。
充满了酸味与歧视,他所代表的那群人“不希望中国拥有强大的人工智能技术”,只有美国才有资格“取得支配且持久的领先地位”,必须“有效执行的出口管制”。
强盗逻辑。就像我之前说过的,“怎么,你学习好还能补课就罢了,中学生还开始撕小学生的书本了。”
对DeepSeek芯片来源调查、对DeepSeek网络攻击、对DeepSeek涉隐私保护调查,有什么下三滥的招数继续使。看是谁在开放,谁在封闭。不排除某些口嫌体直,即当又立,一边使用一边喊打。
这回对线,DeepSeek和Tiktok、华为不一样。
下面,说一说我理解的DeepSeek中国式创新的本质。
1.大道求简。中国古代的道家文化有个词叫大道至简,这原本并没有写在老子的《道德经》里,是后人概括提炼出来,而与道家文化相吻合。
道家探索的“终极奥义”,追求简单朴素的表达,不要绕弯,不要复杂,这是探索的出发点。
当堆硬件、垒资源的边际效益已经出现递减现象,DeepSeek没有理由、也不愿意跟从模仿复制已有方法。于是它改架构,做优化,创造更加精简高效的模型生成范式。
当其他大模型创业公司抓住时间窗口把技术落到产品时,DeepSeek不参与融资,不设商业运营,不做产品变现,坚持做基础模型和前沿创新。
保持技术团队结构,减低世俗欲望,求简的心态才能把最希望做的事做到更好。
一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。
2.平衡求熵。DeepSeek追求的是平衡,不是极致。这个平衡包含算力与算法数据的平衡,投入与产出的平衡,时间与期望的平衡。
从“两弹一星”到逐梦太空——穷则白手起家,富则节节开花。
从抗美援朝鲜到中越自卫反击——穷则战术穿插,富则火力覆盖。
早在DeepSeek发布V2模型后,就有人说它是行业的一条鲶鱼,AI界的拼多多。这只是他们按自己步调的追求平衡的选择。
面对芯片困境,DeepSeek没有选择退缩,反而激发了他们创新的潜能。
在技术竞争的高端领域,DeepSeek走平衡的特色之路,降低更多不确定性,也可能为今后的人为限制备有后手。这也为AI探索贡献了更多中国式智慧、中国式方案。
3.胸怀求广。从公开的DeepSeek CEO梁文锋谈话内容窥其观点:
“我们不过是站在开源社区巨人们的肩膀上,给国产大模型这栋大厦多拧了几颗螺丝。”——尊重过往
“当前最重要的不是商业化,而是参与全球创新的浪潮。”——力避短视
“在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”——坚持开源
DeepSeek发布每一个版本的同时,都在发论文、做开源、谈不足,甚至提建议。他们追求的是,吸引更多参力量与共建,创设一个属于中国的AI社区生态。
为什么需要AI社区生态?因为有了足够广阔充实的技术社区生态,加以中国本不缺乏的丰富产业应用场景,这片土地才可能看到下一代的技术趋势,而不是未战先自怯、且战且圈钱,或是乱战盲跟从。
4.机制求变。什么样的团队,什么样的工作机制,才能造就这样的DeepSeek。
梁文锋自己说,他们并没有什么高深莫测的奇才,都是一些Top高校的应届生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。
DeepSeek的运作体系并不拘泥于传统的管理模式。团队成员可以灵活调用训练集群的资源,而不必经过繁琐的审批过程。
DeepSeek在V2和V3时,创新运用了使用多头潜在注意力(MLA)技术,这个突发奇想的设计来自团队的一员,DeepSeek立刻围绕他成立一个小组,上人上卡上资源。
梁文锋说,在不确定的前沿探索上,DeepSeek是自上而上,不前置分工而是自然分工,看到潜力时再自上而上去调配资源。
这种自由的探索精神,充分体现了创新组织的特质。
不客气的说,大厂和编内机构有多少弊病,掰着指头数不过来。
层级复杂,审批繁琐,内耗严重,方向多变,形式主义,摸鱼躺平……
AI竞速上如果沾染这些,空有一身抱负也无杀贼之力。DeepSeek给同行打了样,让更多强热爱驱动的人迸发才智。
2025年的第一个月,继DeepSeek后的短短几天,抖音发布豆包1.5 Pro,阿里巴巴发布Qwen 2.5-Max,OpenAI发布GPT-o3系列。
竞速仍在继续,创新永无止尽。
大语言模型如此执着的比拼,是不是通向通用人工智能(AGI)的未来?
当算力算法数据的边际效益,递减到费大力卷出一个远不及期望的低级智能体时,会不会再次迎来AI寒冬?
无数的未知只能留给赛道上的优秀选手。
当下,中国在AI赛道上与美国差距仍大,幅度缩小。需要更多DeepSeek式勇者破浪前行。
势在我,时未及,以势待时。
面对美国政府对华制裁和Anthropic公司CEO Dario Amodei挑衅,希望有一天,能听到类似杨洁篪2021年在安克雷奇对话时的发言:
来源:钛媒体