可灵发布2.1:柔性交互和流体动态拉满,重要的是还便宜

B站影视 韩国电影 2025-06-03 11:01 1

摘要:该系列包含可灵 2.1 和可灵 2.1 大师版,其中可灵 2.1 大师版动态更真实、动作幅度更大,物理效果也更贴近现实,理解提示词的能力也变强了,面向影视制作、商业广告等专业场景。

才过去了一个多月,可灵在主打运动质量的 2.0 大师版基础上再升一级,推出 2.1 系列模型。

该系列包含可灵 2.1 和可灵 2.1 大师版,其中可灵 2.1 大师版动态更真实、动作幅度更大,物理效果也更贴近现实,理解提示词的能力也变强了,面向影视制作、商业广告等专业场景。

价格方面,相对于可灵 2.0大师版,价格不变( 生成 5 秒 1080p 视频需要 100 灵感值,按标准价 10 元人民币),但效果更好。

话不多说,知危编辑部马上带来一手测评。为了追求极致效果,知危把测评对象集中在可灵 2.1 大师版的图生视频功能上,输入图分辨率为 2K。

由于可灵 2.1 大师版主打运动表现和语义响应,因此知危大部分测试的都是运动场景,并把提示词包含的动作、主体等元素尽可能丰富。

更进一步来说,当前的商业视频生成模型追求画面表现力,因此更注重柔性或流体交互而不是刚性交互,为此在具体案例选择上,我们聚焦在了人本身、人与流体、人与人等交互场景中,比如冲浪、跑步、游泳、跳舞等( 只要不是拳头碰拳头这种硬碰硬的方式,人与人之间的交互也可以视为是柔性的 )。加上之后开放性测试的泰拳、极限运动、棒球等场景,知危几乎是用可灵2.1大师版举办了一场运动会。

首先关于人本身,来看一个跑步场景。

首帧图:

提示词:

短跑运动员进行100米冲刺。步频和步幅达到最佳状态。相机沿跑道侧面高速跟随,保持与运动员同步移动。跑道表面略有震动,看台观众为背景。运动广告风格,高对比度,肌肉纹理清晰,速度线条动感强烈。

输出视频:

运动员保持了非常逼真自然的跑步姿态和肌肉动态,也没出现扩散模型容易出现的左右腿 “ 顺拐 ”( 混淆两者 )的现象甚至大腿上的号码也一直保持为同一个数字,后半段背景部分虽然出现了一些不协调的变化( 观众席的空间布局不太符合常识 ),但整体效果还是不错的。

一个人表演怎么够,接下来用更多的人搭建一个热闹喜庆的舞台。

首帧图:

提示词:

多名舞者在舞台上进行同步舞蹈。舞者有节奏的动作,中间的主舞者旋转跳跃,其余舞者形成队形流动。镜头绕舞台缓慢旋转。舞台灯光随动作变化节奏切换,整体呈现流动舞台感。音乐剧舞台风格,镜头稳定流畅,强调集体节奏与个人动作张力,光影配合表演节拍变化。

输出视频:

不管是每个舞者的动作自然度、同步性以及整体队形流动形成的舞台效果都很棒,裙摆的飞舞看起来也非常符合物理直觉,队形流动后没有形成错误的空间遮挡,有些小遗憾的是后方的舞者走到前方后出现了一些不一致,比如走到前方后第三位舞者的服装应该是有裙摆的,有些舞者旋转后过早从背面转换为正面。

在这个多人舞台中,每个人都是单独执行动作的,如果要在交互复杂性上更进一步,当然双人舞最合适不过,这也是非常典型的人与人交互的场景,来看看这个拉丁舞的案例。

首帧图:

提示词:

专业舞蹈演员表演拉丁舞。男女舞伴身体贴近,女舞者被男伴带领做旋转和倾斜动作,动作充满张力和激情。相机围绕舞者做弧形运动,时而拉近捕捉精彩动作,时而拉远展现整体舞姿。女舞者裙摆在旋转中飞扬,舞台灯光随节拍变化,观众掌声此起彼伏。舞台表演风格,戏剧化光影,色彩浓郁,强调舞者间的化学反应和情感张力。

输出视频:

实际上,可灵 2.0 大师版在这类场景已经展现出了不错的潜力,但可灵 2.1 大师版在保持相同的动作质量的同时,动作速度甚至更快,两位舞者通过动作和神态把情绪很好地传达了出来,虽然女舞者在旋转时手跟不上身体的几个瞬间比较明显,但瑕不掩瑜,丝毫不能掩盖成品带来的惊艳感。

人体除了肌肉、肢体、服装,还有一个元素能够通过柔性交互提高画面表现力,那就是头发,所以我们再测试一下可灵 2.1 大师版在大风吹拂场景下的头发表现力。

首帧图:

提示词:

一位长发少女骑着一只巨大的缅因猫在空中飞行,镜头跟随她们穿越高空云层,展现少女飘动的发丝与猫毛在风中流动的细节。写实风格,真实模拟毛发在风中动态变化的物理特性,光影细腻、色彩自然,整体画面具有电影质感,镜头语言强调速度与毛发动势的张力,整体构图强调空间层次与纵深感。

输出视频:

除了知危故意让少女的坐骑也是毛发很长的缅因猫,而可灵 2.1 大师版似乎没注意到这一点,还能说什么其他缺点呢?少女长发在强风吹拂下的效果基本是影视级别的。

测试完人本身、人与人的交互场景,接下来是关于人与流体的交互场景,我们首先来看一个冲浪场景。

首帧图:

提示词:

冲浪运动员在大浪上展现精湛冲浪技巧。冲浪者在浪墙上保持平衡,身体随浪形调整姿态,完成转弯和加速动作。相机跟随浪花运动。海浪翻滚产生白色浪花,海水深蓝色泽,远处天空云彩变化。极限海洋运动风格,自然光线充足,蓝色和白色主导,突出人与自然的和谐较量。

输出视频:

可以毫不夸张地说,完美无缺,知危真的不知道说什么好了,就强调一下,它把 “ 完成转弯和加速动作 ” 这一核心动作组合都实现了。

接下来展示的游泳、滑雪场景,也是几乎毫无瑕疵。

首帧图:

提示词:

一名专业游泳运动员在泳池中进行自由泳训练。游泳者身体在水中以流线型前进,手臂交替划水,腿部规律打水推进。相机在水下拍摄,跟随游泳节奏。池水清澈透明。专业游泳训练风格,蓝色主调,强调技术动作和水中流畅感。

输出视频:

动作、光影、水的反射都呈现得很好,但似乎这并不是某种标准的游泳动作,但还是那句话,瑕不掩瑜。

首帧图:

提示词:

滑雪运动员从雪山坡道高速滑降,滑雪板切割雪面激起雪浪。相机从侧面跟随下降轨迹。雪面反射阳光,山景壮丽为背景。冬季运动风格,高反差雪景,色彩鲜艳的装备突出,强调速度与自然环境融合。

输出视频:

最后,知危想特别测试官方强调可灵 2.1 大师版在表现微表情、微情绪方面的能力,可以说,这绝对会是让影视制作人爱不释手的一个能力,这个能力对语义响应的要求也较高。

首帧图:

提示词:

一个电影风格的中近镜头,一位年轻女子凝视远方,起初面无表情。慢慢地,她的目光开始聚焦,眉头微微皱起,嘴唇轻轻颤抖。突然,她眨了眨眼,眼角涌出一颗泪珠,却又没有落下。没有对白,只有面部表情。风格:超写实或电影级CG,浅景深,柔和的冷光,微妙的情感张力。镜头:静态特写或慢速推拉。

输出视频:

因为涉及的微表情较多,整个过程也是比较慢的,知危怕 5 秒时间不够,特地下血本生成了 10 秒的视频,结果并没有让知危失望。年轻女子基本完成了提示词中眼神聚焦、皱眉、嘴唇颤抖等细微动作,整个过程让你感觉这要么是专业演员,要么是真人真情流露,虽然最后女子没有涌出泪珠,但悲伤的眼神能让人感觉 “ 再多一秒就哭出来了 ”。

就目前的测试体验,知危认为在柔性交互或流体交互场景的应用可以极大释放可灵 2.1 大师版的动态表现力( 不代表可灵 2.1 大师版所有能力 ),就像打太极一样,不是硬碰硬,而是柔中带刚。

当然,即便在有较多刚性交互的场景中,比如泰拳、极限运动、棒球等,可灵 2.1 大师版也能带来不少惊喜。

最后,再整体介绍一下可灵 2.1 系列模型的关键更新。

总体而言,在维持和可灵 1.6 或可灵 2.0 大师版相同定价的基础上,可灵 2.1 系列模型效果更上一层楼,拥有更加卓越运动表现和更强语义响应,分辨率也提升到 1080p 。

可灵2.1模型包含标准( 720p )、高品质( 1080p )两种模式,主打高性价比和高效生成。定位高端的可灵 2.1 大师版,如上所示,运动表现和语义响应更是强一个段位。

可灵 2.1 模型生成标准 5 秒 720p 视频只需要 20 灵感值( 按标准价 2 元人民币 ),即便生成 1080p 高品质视频也只要 35 灵感值( 3.5 元人民币 ), 价格和旧版( 可灵 1.6 )差不多,但生成效果更好,相当于 “ 加量不加价 ”。

至于本文测试一直使用的可灵 2.1 大师版,生成 5 秒 1080p 视频需要 100 灵感值,按标准价 10 元人民币,乍看有些贵,但绝对是物有所值。

视频生成速度一直是用户痛点,但这次可灵 2.1 “ 快了不止一步 ”,行业内其它模型一般要2~3分钟,而可灵2.1生成5秒高品质视频(1080p)内容只要不到1分钟。

简单来说,可灵 2.1 就是更快、更好、更便宜,既能打日常创作,也能上专业大屏,对 AI 生成视频感兴趣的朋友们,非常值得一试。

来源:李大大饼一点号

相关推荐