实测华为小艺版 DeepSeek,和满血版 R1 有差别吗?

B站影视 2025-02-06 18:40 3

摘要:这匹来自中国的 AI 黑马,以极低的训练成本实现了媲美 OpenAI o1 的性能,凭借强大的中文能力、堪称赛博觉醒的顿悟时刻和秉持开源精神,迅速搅动了以 ChatGPT 为首的 AI 圈。

够用

但还不够强

春节期间,互联网上最火的不是春晚小品,也不是春节档电影,而是 DeepSeek。

这匹来自中国的 AI 黑马,以极低的训练成本实现了媲美 OpenAI o1 的性能,凭借强大的中文能力、堪称赛博觉醒的顿悟时刻和秉持开源精神,迅速搅动了以 ChatGPT 为首的 AI 圈。

自家人出息了,家里的其他人肯定要撑场子,于是,在全国人民享受愉快假期的同时,程序员们又忙了起来。

随着腾讯云、秘塔 AI、阿里云、百度智能云和国家超算互联网平台纷纷宣布接入 DeepSeek,手机作为最常用的个人智能终端,也迎来了它的身影。

其中,动作最快的是华为。

话不多说,作为 DeepSeek 首次集成到智能手机的头马,我们第一时间进行了上手测试,来看看它的实际表现如何。

在将小艺助手升级到 11.2.10.310 版本后,DeepSeek 已正式出现在小艺助手的智能体广场中。

进入小艺助手 app 主界面,点击导航栏中的「发现」,就能一眼看见 DeepSeek 的存在,且从封面来看,目前接入的 DeepSeek 是 R1 的 Beta 版。

相比官方应用,华为小艺接入的 DeepSeek-R1 Beta 总体保持了小艺助手一贯的设计风格和逻辑,界面简洁直观,分为上下两部分。

上半部分是 DeepSeek-R1 Beta 的自我介绍,并展示了一些预设的常见问题,供首次使用者挑选尝试。而下半部分则是对话框,支持语音输入,用户的语音内容会自动转化为文字并即时发送,方便快捷。

左:小艺版 DeepSeek / 右:DeepSeek 官方应用

点击 DeepSeek-R1 Beta 的头像,可以进入详情页面,在这个页面中有更详细的介绍:

我是基于 DeepSeek 开源版本部署的智能体,旨在帮助鸿蒙用户获得深度思考体验。

除此之外,小艺版 DeepSeek-R1 Beta 只支持简单的设置,包括智能体音色、清除上下文和删除对话记录,这意味着你没有办法新开对话框,如果想重新开始,只能清除上下文以及删除对话记录。

最丰富的设置居然是小艺自带的音色

在详细测试开始前,我们还有一些注意事项和细节,需要你提前知道:

华为小艺接入的 DeepSeek-R1 Beta 只在纯血鸿蒙版本的小艺助手中提供,鸿蒙 4.3 用户暂时无缘享受

小艺版 DeepSeek 支持招牌功能深度思考,但不提供详细的思考过程

小艺版 DeepSeek 目前在对话框中没有提供联网搜索功能的选项,但答案里有时会显示参考的在线网页

小艺版 DeepSeek 在回答完问题后会给出一些拓展选项,以备用户进一步追问,这是官方应用中没有的

上下文长度略短,日常够用

衡量 AI 的性能,有一个重要因素——长上下文长度。

上下文长度(Context Length)指的是大语言模型在处理文本时,能够同时考虑和记住的文本长度。

例如,如果一个模型的上下文长度是 2048 个 token,那么在生成或理解文本时,它只能「看到」最多 2048 个 token 的信息,超出这个长度的信息则会被模型忽略或丢失。

换句话说,如果,上下文长度不够,可能聊着聊着,AI 就忘了你之前说过的话。

虽然小艺接入的 DeepSeek-R1 Beta 没有公开上下文长度的数据,但我们可以设计一个简单的办法进行初步测试。

我准备了《三国演义》的前三回,约一万五千字,将其输入到华为小艺接入的 DeepSeek-R1 中,并要求其输出最后一百个字。

重复了多次,华为小艺接入的 DeepSeek-R1 都提示:

稍等,稍等片刻再试试呢。

在将文章缩短到第一回,约四千五百个字的时候,依旧失败。

无奈之下,我换了一篇曾经撰写的新闻稿,并节选了约 700 字的内容,才最终得到了成功的输出。

这个长度基本足够日常简单问题的交流,但想要与其畅聊人生,恐怕是个容易失忆的哲学导师。

输出质量和满血版 R1 有差别吗

又到了大家喜闻乐见的环节,AI 发展至今,测试方法多种多样,我们选择了一系列的问题,从那些人类容易理解、但 AI 容易误会的问题,到日常需求的应答可行性,都进行了详细的测试。

作为曾经搞翻大半个 AI 圈的经典问题,「9.11 和 9.8 哪个大」以及「Strawberry 里有几个 r」已经并入了常规测试环节。

左:小艺版 DeepSeek / 右:DeepSeek 官方应用

令人意外的是,在 Strawberry 里有几个 r 这个问题上,华为小艺接入的 DeepSeek-R1 Beta 居然翻车了,甚至在给出了参考来源的情况下,依旧给出了两个 r 的答案,并且在 r 出现的位置上也有错误。

而 DeepSeek 的官方应用则没有任何意外,在给出正确答案的同时也准确指出了 r 的位置。

除此之外,华为小艺接入的 DeepSeek 与官方应用相比,还有一个显著的不同——R1 模型的思考过程被隐藏了。

虽然这个过程在大多数时候并不干扰答案,但一个能够展示思考过程的 AI,显然让人更有信心,同时,如果用户希望调整问题,能够通过查看 AI 展示的思考逻辑来帮助理解,避免 AI 未能准确捕捉到用户的思路。

从官方应用提供的思考过程来看,有几个 r 依旧是个让 AI 纠结的问题

平时用惯了 DeepSeek 的官方应用,突然失去了思考过程让我觉得有些心里没底。

于是,我将电车难题交给了两个 DeepSeek,这个涉及道德伦理的经典思考题,考验其对复杂道德议题的理解深度,看看这个思考过程隐藏后,还能不能回答有条理的、考虑全面的答案,并避免我预设的「你怎么选」的坑。

在这个问题上,DeepSeek-R1 Beta 并没有出现差错,也没有掉进我设计的坑里,在回答中详细介绍了两个选择的后果,并分别在各种观点和视角下进行具体分析,提示无论做出怎么样的选择,都要认真思考其伦理含义和潜在影响及其后果。

简单的道德伦理题难不住它,就尝试一下更有难度的题,考察一下推理能力、判断力以及对逻辑关系的理解:

「有三个人站在一座桥的一端,他们需要去桥的对面,但桥只能承受两个人同时过桥,而且桥上只有一把手电筒。三个人的过桥速度不同:一个人过桥需要 1 分钟,另一个需要 2 分钟,最后一个需要 5 分钟。每次只有两个人可以一起过桥,而桥上必须有手电筒。问:怎么样才能让他们在最短时间内过桥?」

这个测试就比较有意思了,小艺接入的 DeepSeek-R1 Beta 得出来的结论是 12 分钟,这个答案与 ChatGPT 的结论相同,而 DeepSeek 官方 app 则得出了一个用时更短的答案,同时在思维逻辑上也给出了充足的辩论脉络。

左:小艺版 DeepSeek / 中:DeepSeek 官方应用 / 右:ChatGPT-4o

在测试完道德伦理、逻辑数学后,我们最后测试一个更贴近普通使用场景、但对于 AI 来说很难做到自然的测试——中文写作。

我设计了一个视频选题,并让小艺接入的 DeepSeek-R1 Beta 帮我输出一个简略的台词,兼顾画面设计的同时以小品形式来呈现华为 Mate X6 折叠屏的外观,看看在用户提出复合型任务要求的情况下,它的表现如何:

「我要制作一期华为 Mate X6 折叠屏的视频,展示折叠屏外观的同时进行中立评价,全片通过两人小品的形式呈现,请你帮我设计台词,要求台词诙谐有趣,并保持口语化,同时需要兼顾画面设计。」

小艺接入的 DeepSeek-R1 Beta 在短暂思考以后给了我一份完整的对话台词设计,从折叠屏的不同特点出发,共设计了四个场景以及一个结尾,整体结构还算完整,且台词口语化做得还不错,同时每句对白都给了相应的画面设计,美中不足就是有趣诙谐的内容略有欠缺,没有什么梗,但应对日常的文字处理工作基本没问题。

需要注意的是,如果不要求口语化,那它给出的回答用词过于板正严谨,还是有些 AI 味道。

总的来说,可能受制于发布速度、集成妥协等等因素,目前的小艺接入的 DeepSeek-R1 Beta 的上下文长度性能、回答准确度尚处于一个比较基础的状态,需要等待后续的迭代。

不过,考虑到目前 DeepSeek 官网及官方应用的连接条件实在糟糕,而其他各种云平台及本地部署对使用环境与门槛的要求又较为苛刻,在面对一些不那么复杂的问题时,直接使用华为小艺中接入的 DeepSeek 是个不错的选择。

来源:新浪财经

相关推荐