iPad 里跑“GPT-4o”:面壁新模型,低调开源

B站影视 2025-01-16 16:51 3

摘要:昨天,面壁低调(没媒体曝光)发布了新模型 MiniCPM-o 2.6:【开源】【端侧】比肩 GPT-4o,只有 8B,非常强!

昨天,面壁低调(没媒体曝光)发布了 新模型 MiniCPM-o 2.6:【开源】【端侧】比肩 GPT-4o,只有 8B,非常强!

最令人瞩目的是,模型可以跑在 iPad 里,全模态,极其大胆

顺着这个事儿,也给大家说到一个概念:AI 糊弄学。来聊聊 AI 产品有多少小套路。

拿它举例,是因为这个模型不糊弄,真的很强:

See 真的在看:大模型是可以有视觉记忆的Hear 真的在听:能万物的声音,比如敲门敲门声(这个 OpenAI 的 4o 不行)Expres:真的在说:情绪非常丰沛,比如... 和他讨论我中彩票了

我中彩票了,赛博禅心,1分钟

不过吐槽下... See...Hear...Express...SHE?

OpenAI 出了个 HER,这边就对立着来了个 SHE 是吧?

算力一直是很贵的,所以很多 AI 产品,选择了糊弄:假装费力思考,实际啥也没干

最开始的糊弄,可能是 AI 不知道从哪学来了厚黑的语料,比如:

之后,就是为了省钱,故意优化的了,比如典型的... 某些以搜索见长的 AI,有时并没搜,而是假装看了很多网页,然后猜你一个答案

而在“视频通话”领域,更是重灾区,比如:“看图说话”和“语音套娃”

不少厂商都有发布视频通话:比如给他打电话,然后基于摄像头进行问答。但实际上:很多 AI 都只是假视频 - 截了个摄像头的图,然后看图说话。

也因为如此,你看到的各种 Demo 中,都是静态场景。

比如拿了一个苹果,问 AI:你看到了什么?

AI 可以准确回答:这是一个苹果。

但如果先拿一个鸡蛋晃荡一下,再拿一个苹果问 AI:你看到了什么?

AI 也会回答:这是一个苹果。

ahhhhhhhhh~~ 必然会错,因为他只是对着最后一秒的画面说话!

我们会说:“听话要听音” - 中文里有很多信息,是需要语气传达

如果一个人听不懂正反话,比如自嗨于“吾有卧龙凤雏,何愁大事不成”,就会被认为脑子不太灵光。

而我们现在的很多语音助手,也是“卧龙凤雏”般的“大聪明”。

比如:你说一句反话:“你真棒!”,本意是批评,但语音助手可能识别成文字 “你 真 棒”,理解为赞扬。在这一来一去之间,语气、语调、情绪等信息都被丢弃了,AI 自然也就比较大聪明了。

(为什么我在骂自己???)

从技术的角度,这是因为很多语音助手采用了“语音转文字,再转语音”的方案:先将你的语音转换成文字,然后让 AI 理解文字,再将 AI 生成的文字转换成语音。这种“套娃”式的处理方式,会导致两个问题:一是速度慢,二是信息丢

而端到端模型,则是省去了中间的“翻译”环节,直接对语音信号进行处理。好处是明显的,除了能识别文字内容,它还能捕捉到语气、情绪等更丰富的信息。比如你感冒时说话的鼻音,它也能识别,甚至可能会主动关心你的身体状况。

最典型的,是 OpenAI 的 Realtime API 就采用了端到端音频算法,用声音训练声音,实测语音输入到 ASR 总计约 0.3 秒,体感几乎和真人交流一样。

吐槽一下

我之前通过视频号,直播了一场赛博双簧:AI 说话,我对口型。

一场直播下来,莫约 1 个小时,盈亏如下

收入:27.4 元人民币,来自打赏(税前)成本:40+ 美金,用于 API 费用(我真聪明)

为啥花这么多?因为我善因为我调模型的时候,没“偷工减料”。

模型革命

话题回归到 MiniCPM-o 2.6,这是第一次把 4o 级别的多模态端到端模型,从云端放到端侧。

这意味着什么呢?

对于用户:

更低成本:省钱,省钱,还是省钱。稳定使用:不用担心模型会“降智”,也不用担心服务器负载高的时候,用不了模型。隐私保护:无需数据上传,更不用担心机密文件被拿去训练。

对于厂商:

差异化:算力芯片大家都一样,搭载个 AI 会有更大的不同。占生态:用 AI 串联起各种内置功能,一如苹果通过生态,绑定更多的用户习惯。

我们虽无法说端侧 AI 将取代云端 AI(这有点开玩笑)。

但以 MiniCPM-o 2.6 为代表的探路者,实打实地让我们看到了端侧 AI 的潜力,去进一步思考,端侧 AI 和云端 AI 可能会长期共存,融入生活。

以及,这个项目是开源的,可以在这里玩:

来源:东窗史谈

相关推荐