摘要:去年 12 月,OpenAI 在 ChatGPT 两周年期间连续发布了 12 天,我们期待的新一代大模型 GPT-5 却从头到尾没有踪影。
下一代 AI 的发展,似乎遇到了难以逾越的瓶颈。
去年 12 月,OpenAI 在 ChatGPT 两周年期间连续发布了 12 天,我们期待的新一代大模型 GPT-5 却从头到尾没有踪影。
失望之后,随之而来的还有各路媒体的报道——各大人工智能实验室似乎同时在大型语言模型竞赛中撞了墙。
OpenAI 的「GPT-5」内部代号 Orion,已经进行了为期数月的后期训练,然而该模型发布经历了多次延迟。知情人士表示,Orion 至今仍未达到可发布水平,OpenAI 不太可能在最近推出该系统。与此同时,Anthropic 等其他公司的下一代模型也面临着同样的问题。
大型模型的训练可能需要花费数千万美元。由于系统的复杂性,模型的训练可能需要数月时间,除了 GPU 的需求暴增,甚至电力也成为了阻碍 AI 训练进行的瓶颈。数据是大模型面临的又一大挑战,生成式 AI 发展至今,我们距离耗尽全球所有可访问数据已经越来越近了。
为了克服这些挑战,研究人员正在把目光转向新的方向。
「2010 年代是扩展的时代,现在我们又回到了好奇与发现的时代。每个人都在寻找下一个目标,」OpenAI 前首席科学家 Ilya Sutskever 表示。「现在,找到正确的扩展方向比以往任何时候都更加重要。」
生成式 AI 的下个形态
正在浮出水面
其实,我们对 AI 的下个大方向并非毫无头绪。
2024 年 8 月,谷歌实验版的 Gemini 1.5 Pro 超越了 GPT-4o,宣告了大模型竞赛「逆袭」成功,如今不论是在消费端还在 AI 社区,人们都认为谷歌提出的技术最具颠覆性,已经重回到了领先梯队。
面对新一轮理论升级,Anthropic 等公司迅速跟进,OpenAI 则拿出了主打「复杂推理」的 o1 大模型,旨在专门解决难题。
国内企业也投身于新道路的探索。近日,商汤科技实现了原生融合模态训练上的实质性突破,发布了「日日新」融合大模型。
生成式 AI 爆发后,多模态大模型早已成为人们追求的方向。然而,我们在很多应用中接触到的多模态模型并不能说是「完全体」。
模态融合(Multimodal Fusion)被认为是 AI 未来发展的必由之路。就像谷歌所认为的,只有从头开始的多模态才能构建出超越前代的先进模型。这意味着它天生地可以读取和输出不同模态内容,还具备强大的多模态推理能力和跨模态迁移能力。
图片来源:https://arxiv.org/abs/2312.11805
这是一个符合直觉的技术方向——只有让机器拥有对物理世界中多模态、多维度信息的感知,拥有了综合的理解,它们才能发展出类似于人类的分析、判断、正确决策能力。
在新范式下,你可以自然地与 AI 进行交流:发一段语音、添加一张图片、输入一些文本,甚至直接录短视频都行;同样的,输出也是自然的多模态形式。
商汤原生融合的多模态模型,打破了一直以来大语言模型、多模态大模型分立的行业局面,真正意义上迈向了模型一统。
对行业来说,大模型进入了多模态时代。随着走向通用和一体化,并在视觉、语音、数学推理等方面实现了前所未有的能力,一线大模型的技术门槛将大幅拉高。
抢先实测
「原生融合多模态」优势尽显
得益于在计算机视觉领域超过十年深耕和丰富经验,进入多模态时代之后,商汤的独有优势正在逐渐显现。
日前,商汤还对外发布了「日日新」融合大模型交互版(SenseNova-5o),它基于「日日新」融合大模型的能力,提供实时音视频对话服务,我们也立刻下载进行了测试。
简单测试下来,我们发现它的反应速度很快,与真人对话无异,并且可以随时打断和接话。而且,SenseNova-5o 还拥有令人满意的记忆力,可以长达 5 分钟,因此它能在多轮对话中持续不断理解使用者需求,并且准确记住几分钟之前,曾经听到、看到的内容。
这意味着多模态的 AI 已经可以拓展出一些新的应用场景,比如帮助孩子解读题目,给出清晰的解读思路。
充分支持实现音频、图像、视频的任意组合的多模态输入,以及自然流畅的语音内容输出,商汤走出了迈向更自然人机交互的新一步。
体验了交互能力之后,我们还在商汤「商量」网页版中,测试了全国首个原生融合多模态大模型——商汤「日日新」融合大模型更加全面的表现。
搞笑搭子
最近一大波外国人疯狂涌入小红书,为了拉近与中国网友的关系,他们主动交猫税、开班教英语、手把手辅导作业……
更搞笑的是,评论区还被龙妈和唐僧的同框照刷了屏。
我们把该图丢给商量,它不仅认出两个影视人物,还读懂了这张图背后表达的跨文化传播的幽默感。
再比如这张恶搞电影《华尔街之狼》的梗图。
AI 先分别描述了图片上下两部分的场景,然后揣摩出其中的「深意」——只要将 AI 元素融入日常物品中,就能提升其价值——一语中的。
当被问到「这个场景来自哪部电影?」时,商汤「日日新」一口答出《华尔街之狼》,还简单介绍了其基本信息。
旅游搭子
它还是逛博物馆的好「搭子」。
只需随手一拍,它就能把文物的「前世今生」捋一遍。
就比如这顶明孝端皇后的「九龙九凤冠」,其精美程度让人叹为观止。仅用一张图片,商量就能扒出它的尺寸、设计以及制作工艺等。
学习搭子
测试多模态大模型的逻辑推理能力,自然少不了数学题。今年深圳南山区数学题难倒一片小学生,我们从中选取一道来考考商汤「日日新」。
它对着题目就是一顿分析,在给出正确答案的同时,还列出了解题思路。
对于小红书上中外网友探讨的数学作业,商汤「日日新」也能分析得头头是道。
此外,它还能进行图表分析。
从概念理解,到折线图中关键要素提取,再到信息分析,AI 的「大脑」在高速运转,几个步骤合一迅速完成。
更低成本
已商业落地
目前,商汤「日日新」融合大模型已向客户开放了端到端 API 调用,同时融合大模型交互版(SenseNova-5o)也已经面向视觉交互场景开放商用(限时免费!)。
其中,针对商用版本的 SenseNova-5o,商汤将提供两种交互模式的服务。
半双工模式:类似对讲机模式,双方交替发言,可以支持平均 560 毫秒响应音频与图像输入,与人类的对话交互的响应接近,同时支持 1200×800px 的图像解析,不超过 30 秒的音频输入,不超过 720p 的视频输入。
全双工模式:类似电话的通信模式,AI 可以实时理解用户意图并生成回应,实现流畅自然的语音 + 视频交互,实现了接近人类面对面交流的体验。
SenseNova-5o 基础架构
而且根据最新权威测评,商汤基于原生融合的多模态大模型 ——「日日新」融合大模型,在图文推理、语言等各方面都达到了业内最优水平。
在 SuperCLUE 最新的《中文大模型基准测评 2024 年度报告》中,商汤「日日新」和 DeepSeek V3 并列总榜国内第一。在权威综合评测权威平台 OpenCompass 的多模态评测中,商汤「日日新」也取得了第一名,成绩领先 GPT-4o、Claude 3.5 Sonnet 等。
这也让我们发现,采用了原生融合模态训练的多模态大模型的每一种单模态能力,都超越了只在单模态数据上训练的模型的性能 —— 它们在不同模态的数据学习中,涌现出在多模态信息上的深度推理能力,和跨模态的交互能力,显著超越了通过传统图文对齐方法的多模态模型。
在预训练阶段,商汤的工程师不仅使用了天然存在的海量图文交错数据,还通过逆渲染、基于混合语义的图像生成等方法合成了大量融合模态数据,使得模型基座对于模态之间的关系有更扎实的掌握,为更好地完成跨模态任务打下基础。
在后训练阶段,基于对广泛业务场景的认知,商汤构建了大量的跨模态任务,包括视频交互、多模态文档分析、城市场景理解、车载场景理解等。通过把这些任务融入到增强训练的过程,商汤的融合模态模型获得了强大的多模态理解分析能力,对大量业务场景能够形成有效响应。
而且商汤表示,和分别训练一个语言大模型、一个多模态模型相比,训练商汤「日日新」融合大模型的总体成本反而降低了 40%。
AI 扩展定律
还有几个数量级的空间
中国正在 AI 领域快速发展,有赶超美国的趋势。这是谷歌前 CEO 埃里克・施密特(Eric Schmidt)表示最近发表的看法,他给出的理由是:中国正在把 AI 技术快速应用于大规模生产。
国内庞大产业体系和需求,正在逐渐成为驱动 AI 发展的决定性力量。
深耕人工智能技术落地多年的商汤,在模型算法、算力、行业经验、工程落地能力等方面,都具备了绝对的优势。据了解,商汤「日日新」融合大模型,和融合大模型交互版(SenseNova-5o)已经落地在具身机器人、AI 眼镜、手机、教育等场景。
商汤科技联合创始人、人工智能基础设施及大模型首席科学家林达华表示:「多模态大模型应该与广泛的业务场景相结合,能够在真实场景中去解决一些复杂的问题,完成复杂的任务。在交互场景,如人与人对话的过程中,多模态能力可以做到很多以往做不到的事。」
去年 12 月,在全球 AI 顶级学术会议 NeurIPS 上,Ilya Sutskever 发表演讲对于人工智能可用数据枯竭表示了担忧,让人们对 Scaling Laws 是否终结的大讨论愈演愈烈。
对于大模型的 Scaling Laws,商汤也给出了自己的判断。林达华表示,当前利用互联网数据进行预训练的方法,确实很快就会到达瓶颈。但真实世界的数据并不仅限于互联网:工作时的 OA 流程,汽车驾驶时传感器记录的状态,科学研究时获得的数据等等,这些内容会比文字形式存在于互联网上的数据多出四到五个数量级。
想要利用好真实世界中的数据,就必须构建起结合多模态的 AI 模型,这就是商汤坚定投身多模态新方向的原因。
换言之,大模型早已不局限于「做题」了。商汤走通了原生融合模态的技术路径之后,未来已经出现了前所未有的想象空间。甚至在图像 + 文字输入之后,我们还可以期待整个空间结构的输入、机器人与 LLM 推理能力的高度结合,还有很多领域值得去拓展。
来源:晚晚的星河日记