摘要:例如你Pad上的MiniCPM-o 2.6,就可以“睁眼”玩儿三仙归洞,还能记住所有牌被翻过去前的图案:
又一个国产AI在外网被刷屏了!
来感受一下这个feel:
这个AI,正是来自面壁智能最新的模型——MiniCPM-o 2.6。
之所以如此火爆,是因为它以仅仅8B的体量,在多模态能力上直接能跟GPT-4o掰手腕!
而且是在iPad上就能跑的那种哦(MiniCPM-o 2.6开源地址如下)~
GitHub:https://github.com/OpenBMB/MiniCPM-o
Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-2_6
从众多网友们转发的实测体验来看,效果也是有点意思在身上的。
例如MiniCPM-o 2.6可以直接“盲听”声音,就知道你在干什么:
翻书声、咳嗽声、倒水声、敲门声,声声精准识别。
不仅是听觉,在看和说方面,MiniCPM-o 2.6也是有两把刷子。
例如你Pad上的MiniCPM-o 2.6,就可以“睁眼”玩儿三仙归洞,还能记住所有牌被翻过去前的图案:
在说方面,MiniCPM-o 2.6现在更自然了,不仅能扮演新闻主播、学生等各种角色,甚至连咖喱味的英文(印度口音)也能整出来。
当然,实时打断也是不在话下:
网友们看罢“Awesome”声一片,有人还直呼:
超酷的,我的iPad像有了第二个大脑。
而且不只是效果,面壁智能一道还把看、听、说等多模态能力在各项评测榜单的成绩晒了出来。
从分数上来看,仅8B的MiniCPM-o 2.6整体能力已经可以跟GPT-4o比肩,甚至在很多细分项目中实现了超越:
用面壁智能官方的话来说,MiniCPM-o 2.6已经是开源社区最强语音通用模型、最强端侧视觉通用模型,以及最强实时流式多模态模型了。
那么在实际体验过程中,它是否真的如此丝滑呢?
来一波实测首先,我们来看下MiniCPM-o 2.6的视力水平到底如何。
在这轮测试中,我们演示了把原先“这是一张照片”这句话删除两个字,看看MiniCPM-o 2.6到底能不能看出来:
我刚才删除了哪两个字?
MiniCPM-o 2.6精准地回答出了正确答案:
你刚刚删除了“照片”两个字。
再来,我们给它看一段《黑神话:悟空》中的经典片段,问它刚刚那个游戏叫什么:
MiniCPM-o 2.6又答对了:
你展示的游戏是《黑神话:悟空》。
而之所以能够做到这么精准,根据面壁智能的介绍,是因为MiniCPM-o 2.6已经做到了真·看视频。
它并不是此前的“照片大模型”,即在用户提问之后,AI才会开始对视频静态图片抽帧,无法回答提问之前的视频内容。
但真·看视频的大模型就不是这样,可以持续对实时视频和音频建模,这就更像人类的眼睛了。
在视觉方面,除了视频之外,对于图片的理解和推理,MiniCPM-o 2.6的能力也是更上一层楼。
比如让它帮忙指导调整自行车座椅。
从找到位置,再到挑选合适工具,它都能正确get用户意图。
它也能化身学习搭子,帮忙解题。
当然,以上表现也基于MiniCPM-o 2.6强大的OCR(光学字符识别)能力。
官方声称,它可以处理任意宽高比,以及高达180万像素的图像(例如1344x1344)。
比如直接对准iPad,它就能识别屏幕上的内容。
在听方面,我们刚才已经展示了很多案例,这里就不再重复测试;我们继续深入实测一波MiniCPM-o 2.6说的能力。
例如这样的:
你帮我用四川话来教我一下怎么煮火锅。
嗯,算是川味十足了。
由此可见,MiniCPM-o 2.6在交互这块,是把看、听、说等交互模式给拿捏住了。
概括而言,面壁智能一直以来专注于面向边端算力场景进行极致优化,更看重的是单设备服务的高效性。
换句话说,一切都是为了能在手机、iPad这样的端侧设备上更快、更好、更省的跑起来。
而MiniCPM-o 2.6采用的模型架构,显而易见也贯彻了这一核心目标。
具体而言,之所以看听说全能,关键之一在于下面这个端到端全模态架构,它能将不同类型数据(如文本、图像、音频)的编码和解码模块通过端到端方式连接起来训练。
这种方式使得模型不是孤立地处理每种模态,而是综合考虑它们之间的关联和交互,充分调动了多模态知识。
而且过程中,完全使用交叉熵(CE)损失(无辅助/中间损失函数)进行端到端训练。
此外,为了适应流式输入输出(即实时、低延迟),不必像传统那样需要等所有数据都准备好再处理,面壁团队又进行了两方面动作。
一是上手改造这些离线编/解码器模块,将其变成更适于流式输入/输出的在线模块;另一方面,针对大语言模型的基座,设计了时分复用的全模态流式信息处理机制(Omni-modality Time Division Multiplexer,OTDM)。
尤其是后者,它将同时并行输入的多模态(如视频流和音频流)按照时间顺序进行拆分和重组,形成一个个小的周期性时间片序列。
如此一来,在一个时间片内,可以先处理一小段视觉信息(如几帧图像),然后处理一小段音频信息(如几毫秒的音频波形),再将它们组合起来,从而避免信息混乱。
接下来,经过OTDM处理后的多模态信息片段,继续按照时间顺序传递给全模态流式骨干网络(Omni-Modality Streaming Backbone)。
作为架构的核心部分,它被用来提取不同类型数据的特征,类似关键帧、关键音频等,然后再把它们融合起来。
过程中,大语言模型隐藏层(图中H0)被用作语音嵌入,主要是为了最终更好地输出语音内容。
当然这一目标也要靠最后的流式语音解码器(Streaming Speech Decoder),它将前面接收到的信息转化为语音形式输出。
而且值得一提的是,面壁团队还设置了可配置的声音方案。
不仅设计了新的多模态系统提示,可直接通过文字or语音样例生成或选择声音风格,还支持端到端声音克隆和音色创建等高级能力。
总体来看,这一架构实现了多模态流式处理+声音的自由选择。也就是说,无论面对哪种数据,都能实现高效、低延迟交互,从而成为听说看“六边形战士”。
事实上,从更大层面来说,作为“以小博大”的老手,本次发布的MiniCPM-o 2.6仅仅是面壁智能更大计划的其中一环。
作为2018年脱胎于清华NLP实验室,国内最早进行大模型研究的一批人,面壁团队逐渐聚焦于更高效的端侧模型之路。
面壁智能CEO李大海曾表示:
站在大模型时代之下,我们都在提的一个概念便是“AI原生应用”;这个时代需要的全新操作系统,就是AI原生应用+AI原生硬件。
而其中的AI原生硬件,其实很简单,就是只要能在端侧运行大模型的硬件就是原生硬件。
因此,端侧的大模型就显得格外重要。
而要想在手机、PC这样的端侧丝滑跑起来,大模型无疑要满足两点:要小,还要性能高效。
对此,早在2020年,他们就作为“悟道”大模型首发主力阵容发布了全球第一个20亿级中文开源大模型CPM 1,并持续参与了之后的CPM 2和CPM 3。其中,4B大小的CPM 3就能和GPT-3.5掰手腕了。
可以说,这一时期的面壁团队就已经开始解决高效问题。
后来,当走红全网的“小钢炮”系列出来,他们也依旧延续了这一路线——
仅2B大小的MiniCPM,在多项主流中英测评中均超越“以小博大”的标杆之作Mistral-7B,甚至还能越级比肩Llama2-13B、MPT-30B、Falcon 40B等模型。
而且价格也打下来了,1元=1700000 tokens,成本仅为Mistral-Medium百分之一。
这之后,过去一年里他们又陆续推出了一系列“以小博大”的产品。
甚至就在刚刚结束的CES(国际消费电子展)上,面壁小钢炮MiniCPM系列也亮相了。
一个是去年9月发布的MiniCPM 3.0文本模型,虽然只有4B大小,但在代码、数学等能力上可达到GPT-3.5水平,并且支持无限长文本。
另一个就是去年8月发布的MiniCPM-V 2.6多模态模型,仅8B大小,不过据当时官方介绍:
它不仅首次将超清OCR识图、实时视频理解等能力集成到端侧,也首次在端侧达到单图、多图、视频理解等多模态核心能力全面超越GPT-4V。
而这一次的MiniCPM-o 2.6,更是加上了多模态实时语音交互能力,离人人可用的端侧模型可谓更近了。
当然了,这也极大便利了视障人士友好出行。因为真实的出行环境大多是异常嘈杂的,而能够部署在移动设备的端侧模型,好处恰在于不依赖网络就能本地运行。(就像下面这个识别红绿灯的例子)
由于能在类似弱网断网场景中依旧正常工作,面壁智能的端侧模型拥有了更多应用场景,也适合部署在智能眼镜等头戴式设备上。
更重要的是,面壁智能还将这些端侧模型完全开源了。
有一说一,回顾过去一年大模型的发展,国产开源力量们无疑表现亮眼。
这其中,从大众知名度和开源情况来看,DeepSeek、阿里Qwen,以及本次提到的面壁智能,隐隐已有“中国大模型开源三剑客”之势。
先说近的,横空出世的DeepSeek-v3,以1/11算力训练出超过Llama 3的开源模型,震撼了整个AI圈。
而阿里Qwen,更是隔一两个月就会刷新一次能力边界。
拿去年来说,6月发布的Qwen2全面超越开源标杆Llama 3,上线仅1天下载量就超过3万次;8月发布的Qwen2-VL,多模态能力甚至超过GPT-4o等闭源模型……
再到面壁智能,其小钢炮MiniCPM系列广受开源社区喜爱,是2024年Hugging Face下载量最高的国产模型之一。
而且一直以来,面壁智能在开源这件事上比较活跃,很多项目也受到了社区不少好评。
目前,MiniCPM-o 2.6已在GitHub和Hugging Face开源,还有在线demo免费可玩。
GitHub:
Hugging Face:
— 完 —
来源:量子位