摘要:但随着AI时代的到来,其实“数字人”在我所在的传媒行业,已经是很普遍的存在了。现在的数字人,虽然还不及《流浪地球2》里的“数字生命”,却也拥有了真假难辨的效果,并在相关行业里有很大的商业价值。
大家第一次听到数字生命这个词,其实大概率是在电影《流浪地球2》中,剧中图恒宇给女儿图丫丫创造的数字生命,让我们对这一技术产生了许多遐想。
但随着AI时代的到来,其实“数字人”在我所在的传媒行业,已经是很普遍的存在了。现在的数字人,虽然还不及《流浪地球2》里的“数字生命”,却也拥有了真假难辨的效果,并在相关行业里有很大的商业价值。
所以如果你对数字人技术好奇,希望用它来做一个自己的“数字分身”,产生一些商业价值,亦或者就是想了解它,了解前沿的AI技术,今天我便用一篇文章给大家介绍下,当今主流的数字人技术以及所实现的效果。
从技术上讲,数字人的最本质的原理,其实就是用AI模型,对一张图、一段视频中人物的嘴型的驱动,来实现嘴型与声音的匹配,让数字人自己说话。当然随着技术的发展,现在的数字人也能做到肢体动作、眼神变化等,变得越来越真实。
单说嘴型的驱动,目前的数字人主要分为视频驱动嘴型、音频驱动嘴型两种技术,视频驱动虽然效果不错,但因为需要一个真人在背后提供说话视频,所以局限性较大。而音频驱动嘴型的技术,应用范围则就广了很多,目前也已经在直播、口播视频、客服交互等领域,显现出了很大的商业价值。
今天会拿华为云的Flexus数字人实操举例,来讲一讲,一个数字人是怎么做出来的,怎么使用的,大家该如何做一个属于自己的数字人。
说起Flexus数字人,其实Flexus系列产品,是属于华为云服务的一个分支。Flexus系列的产品也涵盖了华为云服务中的很多类产品,例如云服务器、云数据库,还有我们今天要讲的数字人。
华为云Flexus云服务是新一代开箱即用、体验跃级、面向中小企业和开发者打造的高品价比云服务产品。直白点讲,就是Flexus云服务易搭建、更实惠、易维护、更安全,适合中小型企业,也适合我这种个人用户。
就比如,华为云虽然也有主线的数字人应用“数字内容生产线 MetaStudio”,但这个服务功能比较多,价格也比较贵,对于不少用户来说“太重了”,那选择Flexus数字人就刚刚好,能享受到大多数功能,使用起来却更简单,价格也便宜很多。
Flexus数字人的价格是999元一套,一套内包含1个实景数字人、1分钟的语料声音克隆,120分钟的1080P视频制作,有效期有1年,1年内如果视频制作时长超了,还可单独购买。
Flexus数字人提供了一个很直观,功能也很丰富的工作台,在工作台里不仅能够通过文本、音频驱动,让数字人说话,还能给他添加手势等动作。甚至还考虑到了说话的停顿、连续、多音字等。可以说是这些丰富的功能加入,才让这款数字人真正能达到商用级别,功能十分地完善。
在华为云的主页搜索Flexus数字人,直接点击购买即可选购,一次购买即涵盖了制作一个Flexus数字人的所有细分服务。完成购买后,即可进入工作台进行数字人的创建。
因为我们是要做一个自己的数字人,所以需要做一个自己的数字人分身。
选择创建分身数字人后,会看到一段比较长的注意事项,华为云还专门做了一段视频,来告诉你要如何拍摄素材视频。因为数字人最终的质量,很受素材视频的影响,所以这一段注意事项还是很重要的。
接下来的步骤中,出了上传训练视频,还需要上传身份证照片、形象声音授权等,这是为了避免别人盗用你的视频训练数字人,导致一些风险出现。
完成上传后,则需要等待一段时间,让算法进行训练。这个训练过程比较缓慢,大概需要两小时左右,但是慢并不是坏事,在同样的素材与算法下,一般训练轮数多一些,最终的模型效果也会更好一些,所以耐心等待即可。
吃过一个午饭回来一看,数字人就已经完成生成了,因为我在生成数字人的同时,也选择了通过视频中的音频来进行声音克隆,所以数字人形象及声音都完成了制作。简单试听一下很是惊喜,效果看起来很好,当然实际到底怎样,还是要生一段视频看看才可以。
Flexus数字人只能进行分身视频的制作,只有完全体的“MetaStudio”数字人,才能进行分身直播。不过在视频制作方面,二者差距不大,也都在同一个工作台完成。
MetaStudio中的功能非常多,可以选择各类口播视频模板,也可以直接上传背景、贴图、音乐等,甚至可以直接上传PPT,将一个普通PPT来变成带有数字人口播的PPT。
可以选择用文本或者音频驱动数字人,能够调节语速、插入停顿等,甚至还能给数字人添加动作。不过可惜目前只有一个公用角色能够插入动作,我自己的分身数字人暂时无法插入。
完成配置并输入需要生成的文本后,点击右上角的合成视频即可。Flexus数字人可以生成最高1080P的视频。
我生成的数字人视频比较短,只有十几秒钟,所以等待大概1分钟就生成好了,生成的数字人视频直接下载即可使用。
整个数字人的视频,从画面清晰度、动作真实度以及声音的逼真度上,基本上都能达到和真人很相近的效果,我觉着如果不说的话,很难分辨是真人还是数字人。
如果是我自己录这样一段视频,从置景、架设相机到正式拍摄,估计要花费至少半个小时的时间,但通过Flexus数字人来完成,只需要1分钟,正因如此,各大企业才会如此看重数字人技术。
我也测试了除华为云Flexus数字人以外的其它产品,华为云Flexus数字人不管从效果还是使用中的体验上,都属于第一梯队,逼真度高且生成效果稳定。
总的来说,通过Flexus数字人的体验,我是真切的意识到,真正的“数字分身”离我们很近了,未来有一天大语言模型的能力接近了AGI水平,再借助数字人技术,我们是不是真的能创造一个有智慧、有感知的数字生命?那一天一定会到来,只是时间问题。
在当下,Flexus数字人也真切的能够让一些个人视频创作者,或有数字人视频制作需求的中小企业,能够以比较低的价格,比较少的制作门槛,来高效完成数字人分身及数字人视频的制作,带来实际价值。
就比如,春节马上就到了,使用Flexus数字人,普通人也能够快速的制作几十上百条内容不同的“拜年口播视频”,发给朋友、客户们,相比普通的文字或语音拜年消息,更具新意。
而对于要求更高的企业,或更正式的内容创作,也更建议选择效果更好的华为云数字人。华为云数字人的产品技术领先,口型匹配更准,并且对用户的数据隐私保护更好,流程更健全。
华为云的数字人产品,已经多次应用在大型的政务、商业活动上,因此很适合机关事业单位、央国企、医院、学校、大型企业这种正式场合比较多的客户使用。
推荐感兴趣的各位,也来体验一下数字人技术,感受一下AI时代,带来的颠覆体验。
来源:学弟评测