梁文峰深夜发文

B站影视 2025-01-30 20:38 1

摘要:● 发文内容 梁文峰在发文中提到,冯骥的文字让他想起十二年前在浙大实验室第一次跑通神经网络时的颤栗,他认为冯总提到的六大突破,其实每一环都凝结着更动人的故事。

2025年1月28日深夜,梁文峰发文称DeepSeek即将发布新版本。

事件背景

有消息称,1月28日晚,一位自称是梁文峰的账号在知乎发文,回应冯骥盛赞deepseek一事,但该账号并未被认证,且已被知乎方面禁言。

事件详情

● 发文内容 梁文峰在发文中提到,冯骥的文字让他想起十二年前在浙大实验室第一次跑通神经网络时的颤栗,他认为冯总提到的六大突破,其实每一环都凝结着更动人的故事。

● 发布新版本 1月28日半夜,梁文峰发文称,Deepseek即将发布新版本。紧接着,DeepSeek发布开源多模态人工智能模型Janus-Pro,拥有10亿和70亿参数规模。

DeepSeek的新版本有很多新特性,不同版本的新特性也会有所不同。

新特性详情

● 33b-instruct 该版本于2025年1月发布,主要新特性包括对模型进行了微调,以提升代码生成和理解能力;增加了新的语言支持和编程框架的兼容性;改进了用户交互界面,使其更加友好。

● 6.7B 2025年1月发布,该版本引入了增强的项目级代码补全功能,通过16K的窗口大小和填空任务,模型能够更好地支持项目级别的代码补全和填充;除了英语,模型还支持中文,使更多开发者能够使用这一工具;通过优化模型结构和训练过程,实现了更高的代码生成准确性和效率;新增了细粒度控制功能,用户可以更精细地控制模型的生成行为,以满足特定的编码需求;可以更好地与主流集成开发环境(IDE)集成,提升开发效率。

● R1 2025年1月20日发布,该模型在数学、代码和自然语言推理等任务上表现卓越,性能直接对标OpenAI的o1正式版;通过强化学习(RL)技术显著提升了模型的推理能力,且仅需极少量标注数据即可实现高效训练;采用了长链推理(Chain-of-Thought,CoT)技术,能够逐步分解复杂问题,并通过多步骤逻辑推理解决问题;支持模型蒸馏,开发者可以将其推理能力迁移到更小型的模型中,满足特定场景需求;遵循MIT License开源协议,允许用户自由使用、修改和商用。

● V3 DeepSeek-V3采用了更深的网络结构和更大的模型规模,以进一步提高模型的性能;同时,它还引入了Multi-Head Latent Attention(MLA)机制,通过压缩键和值为低秩潜在向量来降低内存占用,从而能够处理更长的序列。

DeepSeek新版本在实际应用中表现出色,尤其在中文理解、响应速度、技术与生态等方面具有优势。

优势与应用

● 中文理解更准确 DeepSeek在中文语境里的准确率能达到92.5%,而GPT只有80.3%,因此在处理跟中文相关的任务时,DeepSeek能更好地贴合用户的实际需求和文化背景。

● 响应速度更快 DeepSeek平均0.8秒就能给出回答,而GPT需要1.3秒,DeepSeek能让用户更快得到答案。

● 技术与生态更先进 DeepSeek-R1模型的权重和技术报告都是完全开源的,这对全世界的技术进步都有帮助,开发者能在这个基础上搞二次开发和创新。但GPT一般是不开源的。另外,DeepSeek在训练的时候,用的数据集更丰富、更多样,包含了好多本地化的内容。

● 应用场景广泛 DeepSeek在很多领域都有应用,比如在法律领域做案例检索初筛工作,以前人工得花2小时才能完成50个案例的初筛,DeepSeek只要2-3分钟就行,效率特别高。

来源:沉着云朵yh

相关推荐