如何打通视频模型商业化最后一公里? 智象未来梅涛:技术之上还得构建生态

B站影视 电影资讯 2025-06-09 08:10 2

摘要:过去一年,是视频生成大模型领域众声喧哗的一年,年初Sora引爆全场,随后国内众多企业也都推出了自己的产品。行业竞争愈发激烈,能够成功“跑通”的路径也变得更加陡峭。探索如何实现商业化,成为众多视频生成创业者的困境。

过去一年,是视频生成大模型领域众声喧哗的一年,年初Sora引爆全场,随后国内众多企业也都推出了自己的产品。行业竞争愈发激烈,能够成功“跑通”的路径也变得更加陡峭。探索如何实现商业化,成为众多视频生成创业者的困境。

在日前举行的第7届北京智源大会大模型产业CEO论坛上,智象未来创始人兼CEO 梅涛谈及当前视频生成模型商业化过程中面临的困境时坦言:“(目前)大模型商业化仍不明显,离最后的商业应用还是差‘最后一公里’”。

智源研究院院长王仲远在论坛上指出,过去一年,大语言模型的推理能力和智能化水平有了明显的提升,然而,原生多模态技术尤其在文生视频、文生图方面仍处于探索期,距离“多模态的ChatGPT时刻”尚有距离。

澎湃科技(www.thepaper.cn)注意到,尽管近期国产大模型在多模态融合、生成质量等方面取得显著进展,也在训练效率、推理成本等关键指标上不断优化,但当前技术上仍存在一定瓶颈,而这一定程度上也影响了视频生成模型商业化路径。

Sand.AI(北京三代科技有限公司)的创始人兼CEO曹越认为,虽然Sora已经证明可以生成高质量视频,但从底层技术路径上看,当前主流的Diffusion模型和Transformer模型的训练方案有很大问题,核心问题在于不够“Scalable”(可扩展性)。

这一情况类似2018年语言模型的发展阶段,当时BERT模型刚推出时,在10B参数量级内表现良好,但一旦继续扩大模型规模,其性能提升却趋于停滞,难以获得预期收益。这也是后来ChatGPT能够后来居上的原因之一,它能够有效地扩展到千亿(1000B)级别,从而实现质的飞跃。

然而,在视频生成方向,Diffusion和Transformer目前虽然已能生成5秒左右的视频并呈现出不错的效果,但随着模型参数规模的扩大,则快速达到瓶颈。在现有技术框架下,如何实现真正可扩展的视频生成解决方案,仍是一个悬而未决的问题。

智象未来创始人兼CEO 梅涛指出,视频生成大模型目前正处于ChatGPT2到ChatGPT3的阶段。要解决视频创作的问题,有三个关键点要达到,即叙事性、稳定性和可控性,这是突破商业化瓶颈的关键所在。

梅涛称,从2023年到2025年,这三年他对于商业化有不同阶段的思考。2023年,他认为模型就是产品,2024年觉得可以卖工具,但后来发现,工具的门槛比较高,即便用了特效的方式,也很难满足用户所有需求。

2025年,他再将产品升级,即不用关心如何做,工具只是降本增效的方法,关键在于用低成本、极高效率,创造极高价值。“我们希望直接把结果交付给用户,帮用户做增长,跟用户分佣,这种模式更贴近商业的本质。”

梅涛表示,无论是做视频生成还是大模型,最关键的挑战在于如何从技术能力出发,走到一个可持续、可闭环、有现金流的商业模型中去。如果无法实现这一点,终究只能停留在“技术提供者”的角色。在这一过程中,梅涛说他得出一个清晰的判断,无论模型底座能力多强,离真正的商业应用仍然差“最后一公里”。下一步,他的策略不仅是向用户交付结果,还将进一步构建完整生态。比如,签约大量具备流量优势的内容创作者(UP主)、MCN机构,搭建自有账号体系,从而推动整个生态系统的运转。

“最终我们可能进入电商领域,转向卖货,构建起一个稳定、有现金流支撑的业务闭环。”梅涛说。

曹越认为,视频生成模型在不同的发展阶段,会展现出完全不同的产品契合度(PMF)。在早期阶段,尽管生成效果还不完美,甚至需要频繁“抽卡”才能生成一个可用片段,但与传统拍摄相比,其成本优势依然显著。他预测,视频生成方向在未来三到五年内会大有可为。

澎湃新闻记者 喻琰

来源:米西说剧情

相关推荐