摘要:在12月,Sora终于“姗姗来迟”,正式对外公开上线。尽管Sora在产品、交互层面有不少功能上的创新,但市场普遍的评论是,Sora真正呈现的效果并没有预期的这般惊艳。
“在视频生成领域,我们和OpenAI没有差距。”
“智能涌现”独家获悉,爱诗科技近期正式完成A2-A4轮融资,总额近3亿元人民币。投资方包括蚂蚁集团、北京市人工智能产业投资基金、国科投资及光源资本。
2024年进入尾声,也正逢OpenAI旗下的Sora快接近一周年,中国的视频生成创业公司们怎么样了?
面对“智能涌现”的询问,爱诗科技创始人王长虎从容地说:“至少之前说过的目标,我们都做到了。”
在2024年初Sora预览版发布后,王长虎曾经判断:有信心在3-6个月之内,可以追赶上Sora目前的水平。
在12月,Sora终于“姗姗来迟”,正式对外公开上线。尽管Sora在产品、交互层面有不少功能上的创新,但市场普遍的评论是,Sora真正呈现的效果并没有预期的这般惊艳。
比如,在11月和12月发布的SuperClue等中文测试榜单中,爱诗科技的核心产品PixVerse已经位居文生视频榜单的第一位。在全球市场中AI视频生成应用中,PixVerse也是经常被列入第一梯队的产品。
创业近两年,爱诗科技也交出了一份充实的答卷:核心AI视频生成产品PixVerse,在2024年1月刚上线时,PixVerse在上线后首月就达成了超过120万的访问量。彼时硅谷的明星AI视频生成初创Pika,上线后3个月的月访问量在200万左右。
一年过去,这个数字又刷新了:PixVerse的全球用户数已超1200万,月活跃用户数近600万。并且,团队如今已经实现规模化收入。
产品的快速增长,来源于底层视频模型的许多更新。在2024年,爱诗科技就历经了三次大的迭代,分别是1月的视频模型V1,而7月的V2模型,也是国内第一批发布的,对标Sora等DiT架构路线的视频大模型。在清晰度、一致性、物理规律、指令跟随层面,PixVerse都有了不少的提升。
再之后,10月底上线的最新V3模型后,PixVerse甚至还在社交媒体中创造了一个热点——在TikTok、抖音、小红书等平台上爆火的“毒液”特效,总曝光量过亿。多位素人博主用”毒液“的特效拍摄视频,获得超百万的播放量。
“毒液”特效之所以能够爆火,王长虎表示,这也和PixVerse的底模能力有密切关系。2024年3月,爱诗科技就推出了全球首个Character2Video(人物一致性)模型,并不断迭代解决方案。通过在扩散模型(DiT)生成过程中对ID进行精准约束,视频中的人物形象能够和背景保持高度一致,也提升了用户体验。
过去一年中,生成式视频领域的难点,仍然集中在一致性、物理规律等等,尚有许多技术难点需要突破。王长虎坦承,当前行业的技术路线也还没有收敛。
事实上,行业内对AI视频的认知和期待,已经更为理性。
比如,2024年初Sora发布时,可以生成长达1分钟的视频,这引发了大众对视频生成市场的期待。但值得注意的是,Sora年初展示的是多次生成后的Demo,真正将视频长度拉长后,生成视频的一致性、清晰度等都可能不甚让人满意。面对不满意的结果时,用户点击“重新生成”的概率过高,反而大大影响了用户体验。
因此,当下AI视频领域更多的努力方向,从比拼时长,转移到了视频内容一致性、清晰度、运动幅度等更多维度。
“做产品要看用户真正需求在哪。我们专门去随机去电影网站上去选,去看电影里每个镜头的长度,最后发现呀,其实真正电影里的镜头也基本就是十秒左右。”王长虎表示,为了保证用户的体验和可用性,单纯卷视频时长意义不大。
在生成时长和清晰度上,PixVerse目前支持生成10秒以内的高质量生成,清晰度最高可以支持4K,已经可以进入到商用级别。对比去年,行业普遍能够做到的高质量AI视频,停留在5秒内,而且清晰度普遍在1080p以下。
PixVerse还在迅速更新产品及模型——11月,PixVerse刚刚发布的新功能是,用户上传视频,通过Prompt或选择特效,就可以选择进行视频延长生成。而在12月,PixVerse的下一个模型V3.5版本已进入内测阶段,生成视频速度可缩短至30s以内,提示词响应及运动控制能力显著提升,即将正式上线。
事实上,如今的AI视频生成领域已经有了更清晰的分野。比起Pika、Runway等AI视频初创都以To B为主要方向,而爱诗科技从创立开始,就一直将主要方向放在了更广大的C端市场。12月,PixVerse也刚刚上线海外版的App版本。
王长虎对To C市场的信心,来源于他曾经早期在字节,从0到1搭建了视觉技术团队和视觉算法平台和业务中台,并支撑了抖音和TikTok等产品的高速发展。他表示,爱诗科技的目标,一直都是让每天活跃在短视频平台的数十亿的普通消费者,能零门槛地创作想要的视频。
这种趋势,已经有迹象可以印证。“过去一年,我们经历的比较重要的变化,就是用户从专业创作者,扩散到C端的用户群体。”王长虎说。这促使爱诗科技迅速在产品功能上,不断降低门槛——在PixVerses中,已经内置了数十种特效模版,用户只需输入一张图,就可以生成视频,无需用户自己输入或者思考如何写Prompt。
而进入2024年,初创公司面临的另一个重要问题在于,如何应对巨头的进攻包抄——此时的AI视频生成领域,已经如雨后春笋般,有众多玩家快速下场,巨头侧的快手、字节、阿里、腾讯,均在2024年推出了相应的AI视频模型。
对此,王长虎心态是乐观的。他认为,尽管发展迅速,大模当前视频生成赛道还处在GPT-2到GPT-3的阶段,这一阶段尚有许多技术难点需要突破,这会是初创公司的机会。在此前,爱诗科技的核心团队,也用少于竞争对手十倍以上的体量,攻克了不少业界的技术难题。
在产品侧,视频生成领域也会是一个离用户“更近”的领域。不像LLM(大语言模型)的迭代是飞跃式的,模型到达某一个阶段忽然有阶梯式的性能提升,吞噬掉不少应用;但视频模型的技术演进会更平缓——每一个技术迭代更新,都会带来更直观的视频产品体验提升,这也有助于初创公司更早拿到市场反馈,快速建立起商业闭环。
当前,曾经被关注甚多的训练、推理成本,也正在经历迅速的下降。王长虎透露,如今爱诗的训练成本,实际上是很多同行的三分之一,甚至十分之一,他预测在未来的一年内,成本会下降得更快。在明年,爱诗科技也会在商业化层面提速,目标是获得规模化的增长。
来源:小夭看天下一点号