AI商业化困局:大模型如何跨越“最后一公里”生死线 | 深网

B站影视 港台电影 2025-06-09 10:08 2

摘要:伴随着AI及大模型技术的突破,文生图、图生视频软件不断涌现,诸如Sora在内的视频生成应用,以及不断增强的模型推理能力,为行业发展注入了一针强心剂。但技术在发展的同时,行业陷入瓶颈、如何实现商业化等问题始终存在。

多模态大模型,作为具身智能和AGI(通用人工智能)的核心基础之一,正在迎来一个新的发展节点。

伴随着AI及大模型技术的突破,文生图、图生视频软件不断涌现,诸如Sora在内的视频生成应用,以及不断增强的模型推理能力,为行业发展注入了一针强心剂。但技术在发展的同时,行业陷入瓶颈、如何实现商业化等问题始终存在。

智源研究院在“2025智源大会”上发布“悟界”系列大模型。据了解,“悟界”不仅继续强化了模型的推理能力,也尝试将AI从虚拟认知延伸至真实物理世界的感知与交互中。智源研究院院长王仲远表示,“人工智能正加速从数字世界走向物理世界。”

王仲远阐述:“我们认为人工智能最终要造福人类社会,要帮助大家摆脱繁琐的、重复的、简单的劳动,使得大家能够更多地享受生活,享受这个世界。而大模型技术不应止步于文本生成、语言对话等C端应用,应继续向现实世界渗透,服务实际场景。”

此次大会上,智源研究院院长王仲远、Sand.ai CEO曹越、智象未来CEO梅涛、智谱AI CEO张鹏和钛媒体创始人万宁进行了以多模态大模型发展为核心议题的深度对话。

在技术瓶颈层面,张鹏认为,数据的版权与获取成本将成为技术发展的掣肘;曹越表示,“主流的Diffusion和Transformer的训练方案还存在很大问题,核心问题在于可扩展性不足”;梅涛的看法则是,生成内容的叙述性、稳定性、可控性三点是研究目前需要解决的问题。

可以确定的是,大模型行业的“ChatGPT时刻”尚未到来。能让AI真正实现商业化的临界点是什么?未来大模型又该聚焦何种技术方向的突破?针对以上问题,张鹏等人达成了一致的看法——让模型统一视觉“理解”与“生成”,实现“视频预测”。只有解决了空间、时间和物理世界的交互问题,技术才有望从数字世界走向物理世界。

正如硬币的正反面,技术的两面性也非常鲜明。关于AI可能会对人类带来的毁灭与机遇,王仲远持乐观态度,纵观人类历史,技术革命不曾停歇。从电力革命到AI革命,诚然一些行业被摧毁,一些岗位流入历史长河,“但人类社会始终在向前发展,人类创造的整体物质财富在不断增加。”王仲远表示,对于普通人而言,更重要的是拥抱技术浪潮,“当我们愿意拥抱这种变化时,新的机会就产生了”。

以下是万宁与王仲远、曹越、梅涛、张鹏的现场对话实录,在不改变原意的基础上有所删减:

大模型从“数字世界”迈入“物理世界”

万宁:在过去一年里,你们所看到的最令你们兴奋的技术性突破是什么?

王仲远:过去这一年在大模型尤其是大语言模型领域有了很重要的突破,主要还是发生在和强化学习结合之后。目前大语言模型所使用的文字语料已经被充分使用,导致基础模型提升遇到了一定的瓶颈。但是通过后训练的优化,以及通过推理时的思维链的逐渐加长,使模型在回答问题时能像人一样进行慢思考,回答问题的准确性也得到了大幅提升。这是过去一年推动整个大模型智能化水平的很重要技术突破。

曹越:第一点,毋庸置疑,在以语言模型为核心的发展方向上,过去几年令人振奋的技术进展有两个。一个是预训练的Scaling,第二个是O2和R2这种类型的技术,本质上就是Test time Scaling。另外一个过去一年非常令人震撼的技术就是Sora的出现。它让大家意识到视频生成原来可以做到这样,可以生成质量这么高的视频。

张鹏:让我感到最兴奋的技术,有两件事。第一件事是模型的复杂推理能力、深度思考的推理能力,得到了大规模提升。这件事情为什么让我觉得很惊艳呢?因为它打破了我们最早对大模型的认识,之前我们认为它更像是人的大脑当中的“系统1”,也就是直觉系统。但它现在所展现出来的能力,已经突破到了“系统2”能完成的推理能力。这件事具有划时代意义。

第二件事,基于推理能力的增强,模型在智能体的能力上取得了长足的进步。大模型能自己规划、执行任务,并根据环境的反馈去调整自己的任务流程。这个能力的提升,使得模型能有机会从数字世界迈进到物理世界。

等待大模型的“ChatGPT时刻”

万宁:目前所面临的技术瓶颈有哪些?

王仲远:如果说还有哪些地方有瓶颈,我认为是在原生多模态这块。今天下午也有很多CEO介绍了各自在多模态,尤其文生视频、文生图方面的产品,但他们背后所使用的技术多数还是基于DeepSeek Transformer这类DiT架构,它们跟大语言模型的技术架构还是有差异。

智源研究院推进在原生多模态方面的研究,也是希望探索其他的多模态技术路径和技术架构,目前有一些进展,但也还没有到多模态的“ChatGPT时刻”,我们对未来还是抱有很大的期待。

曹越:从瓶颈视角来看,虽然Sora证明可以生成高质量的视频,但在技术层面,主流的Diffusion和Transformer的训练方案还是存在很大问题,核心问题在于可扩展性不足。

现在面临的问题有点类似2018年的BERT。当时大家训BERT的时候,面临的主要难点是,当模型训练到10B后,再训更大的参数时,不会有进步了。所以BERT一开始有很好的生成效果,吸引了广泛关注,但是ChatGPT后来者居上——它可以训练到1000B。在Diffusion、Transformer路线上,现在证明生成5秒视频可以有不错的效果。但随着模型的规模提升,会快速达到瓶颈。

在视频方向上,是否有可拓展性的解决方案呢?我们认为可以尝试从自回归思想中寻找突破。人看视频是按是顺序看,为什么模型看视频不是按顺序看呢?我们把自回归的思想引入视频生成方向上,可能会有不一样的体验。现在的视频只能只生成5-8秒,把自回归机制引入生成过程中,可以生成任意时长的视频,还可以边生成边控制生成的效果。虽然视频生成已经有一个Milestone(里程碑),但从技术方案和效果上来看,还有很大的探索和提升空间。

张鹏:关于目前的技术瓶颈问题。从视频上来讲,数据是个麻烦的事。因为市场上的数据被用于大量训练,就会涉及到版权、成本等一系列问题,多少对技术的进展有一些限制。当然我们要正面对待,要遵守相应的法律法规。

梅涛:如果把视频生成分级,它目前处于ChatGPT2到ChatGPT3的阶段。视频的创作还有3个问题要解决。一是叙述性,要保证生成5分钟视频或者1小时视频都是完整的故事。二是稳定性,现在稳定性做得还可以。三是可控性。我在读博期间,专门去北京电影学院学过一门课叫“镜头的语言”,导演的要求非常高:第几秒要出现什么镜头,人物要出现什么表情,都有明确要求。今天的大模型还做不到这一点,这三个问题也是技术瓶颈所在,我们还在等待“ChatGPT时刻”的到来。

未来发展的关键是实现“视频预测”

万宁:在AI领域,真正能突破商业化的关键点是什么?

万鹏:传统的CV(计算机视觉)模型的落地应用相对成熟,随着大模型在视觉理解能力方面的提升,或者泛化能力更强以后,可以迅速填补传统视觉模型在应用领域的空白。只要有市场、有需求,研发人员就可以把成本压下来,形成规模化应用以后,就能达到商业化应用的临界点。但视频生成是另外一件事。现在基于视觉的理解和基于视觉的生成这两件事情,还没有办法把它们完全统一起来。

梅涛:如何解决商业化“最后一公里”,我认为目前有两条路,分别适合不同类型的公司。一种路径是你的底座模型做得非常好,可能会“击穿”一些上层的应用,像OpenAI、Gemini,凭借流量、资源优势,在短时间内获取了大量的用户,能提供底层服务从而实现商业化。

另一种是构建垂直商业闭环。这就要求我们深入理解某个行业的具体业务流程,围绕实际需求,搭建一个真正可落地的应用闭环。以我们做互动营销为例:一开始我们以为可以直接卖工具,但很快发现工具门槛高、体验不佳,难以满足用户期待。

于是我们转向“卖内容”,以为只要交付内容就能解决问题。但新的问题是,用户为何愿意为内容付费?它到底创造了什么价值?如何定价?最后,我们发现必须聚焦“结果导向”。用户更关注内容是否带来了真实的流量增长、转化提升等可量化成果。这促使我们进一步前移,从交付内容到交付效果。

因此我们认识到,即便大模型底座再强,若无法解决“商业化的最后一公里”,仍然难以构建稳定的业务模式。所以下一步我们的思路是:不仅交付结果,还要构建生态。比如签约大量流量up主和MCN机构,搭建账号体系,形成完整的生态闭环,未来可能甚至转向电商平台的角色。

不管是视频生成还是大模型,要形成闭环才能构建稳定的、有现金流的业务,否则我们就是一个技术的提供者。

万宁:该如何在下一步的技术实践中,提升真实场景的仿真性?

王仲远:现在的多模态模型很大程度上是对静态画面的理解。比如问一个机器人“你看到了什么”?它可能会说,“我看到了一个会场,有很多人,有的人拿着手机在拍照。”它描述的是一个存在的事实。

但是人类对于多模态的理解,是从一个画面预测下一个画面。比如当我手伸向水杯时,其他人会预测我要拿水,当我手不小心把杯子碰倒在地板上时,人会预判水会洒下去,如果没有盖子,地板会被水洒湿。这才是人类对这个世界的理解,不是一个单帧的、基于图像的描述。

要解决这件事,难度非常大,需要技术路线的突破,理念的转变。我们认为,人工智能接下来的发展,一定要解决对空间、时间和物理世界交互的问题,要具备对宏观和微观世界的理解。

曹越:我们如何判断模型是不是真的理解了所谓的物理规律?举个例子,当我碰了一下水杯,未来1秒的视频是不是显示杯子掉到地上了,它掉落的过程是否符合牛顿定律。在这个过程中,即使它没有用语言表达,也能理解为它实际上已经理解了物理规律。

这也引出了我刚才提到的在视频生成中的一个关键问题——我们怎么找到一个可拓展的解决方案?这个方案其实就是“视频预测”,即基于之前的一段视频,去生成未来可能发生的场景。在这个过程中,我需要对过去一段视频做充分的理解,才能精准地预测未来一段视频可能会发生什么事情。

梅涛:刚才张鹏也讲,“理解”和“生成”怎么样能够统一?很难,我也没有看到答案,仍然在探索中。我们最近在思考的是,能否将3D世界和2D视频相结合,把理解和重建统一到一个过程中,这个可能会是一个更具操作性的方法。

拥抱变化,新的机会将随之诞生

万宁:在很多行业出现了一种说法,即AI将重塑一个行业。你觉得哪几个领域会产生GPT时刻?

张鹏:从本质上看,大模型解决的其实是数据学习、知识压缩和表达的问题,无论是文本还是视频,它最先影响到的是所有人面对面提供知识服务的场景。所以,包括客服、教育、销售在内的职业,是容易最先被影响到的。

随着技术进一步提升,比如现在模型能够写代码、创作文章,又逐渐会替代一些白领的工作,包括程序员、初级研究人员等,所有这些替代都来自于本质能力的提升。现在也有人预测,未来5-10年,人类已知所有的疾病都会被AI解决掉,那时候可能医生这个职业就没有了。当然这是一种极端的预测。我相信随着技术的演进,医疗服务行业仍然会有大量的机会。

我们也会担心,这些人被替代了怎么办?我想,AI在摧毁一些东西的同时,也会创造一些新的岗位和职业机会出来。所以不必担心,正面看待这件事就好。

万宁:你怎么看待大模型和AI在未来的发展中可能会带来的毁灭与机遇?智源研究院的预测是什么?

王仲远:历史上的每一次技术革命都有这样的担心。像早年的电力革命到计算机革命,都会摧毁掉一些行业,而每一次技术革命中,都会有一些岗位进入到历史的记录里。但人类社会依然在向前发展,人类创造的整体物质财富在不断增加。

大模型这波技术浪潮对社会的变革非常深刻,可能大家觉得现阶段大模型已经两年了,商业化依然不明显,依然有很多挑战,基础模型的技术也还在提升中。但大家仔细看,今天谈Agent的公司以及Agent创业公司明显比前两年要多了。随着越来越多人创业,把想法变成产品,变成大家的日常使用,不知不觉间,这个时代就会到来。

我们经常高估一年技术演化的进度,又低估五年带来的重大社会变革。纵观历史,人类不止一次技术革命,我非常乐观。更关键的是每个人都要拥抱技术浪潮,去使用大模型。普通人可以去了解,在了解过程中思考,什么东西有可能在未来,为自己的职业和生活带来改变。当我们愿意拥抱这种变化时,新的机会就产生了。

来源:高峰观天下

相关推荐