客观看待deepseek

B站影视 2025-01-29 13:46 2

摘要:DeepSeek的核心技术,包括多头隐注意力(Multi-Head Latent Attention)、混合专家(Mixture of Experts)、强化学习(Reinforcement Learning),都没有跳脱2017年Google在论文《Atte

DeepSeek的核心技术,包括多头隐注意力(Multi-Head Latent Attention)、混合专家(Mixture of Experts)、强化学习(Reinforcement Learning),都没有跳脱2017年Google在论文《Attention is all you need》中提出的Transformer架构。

其中MLA是DeepSeek在Transformer多头注意力(Multi-Head Attention)基础上改进而来的变体。

MoE同样是Transformer的关键技术之一,概念最早可追溯至1991年的论文《Adaptive Mixture of Local Experts》(深度学习之父Geoffrey Hinton是共同作者之一)。2023年12月,法国初创团队Mistral AI发布基于MoE的模型8x7B,引发开源社区对MoE的广泛关注,同样具有可以比肩GPT等大模型且低参数量、低训练成本的特征。

2016年AlphaGO击败围棋世界冠军李世石是强化学习与深度学习发展的重要里程碑。

不可否认DeepSeek在AI大模型方面作出了自己的创新和贡献,但很明显仍属于Transformer架构内的渐进式进步,既不是革命性的、更谈不上国运级别。

何况,目前对于DeepSeek降低训练成本是否存在知识蒸馏(Knowledge Distillation)还有争议。

知识蒸馏是指利用预先训练好的大模型(“教师”)的输出作为较小目标模型(“学生”)的输入,以提高训练效率。举例:老师划好考试范围的复习量和没有任何范围的复习量。

为什么Transformer、Hinton、Mistral AI的重大成就鲜为人知?因为海外没有那么多炒流量的垃圾。理性客观看待DeepSeek才不会暴露智商。

来源:吕晓彤

相关推荐