摘要:《请帮我实现一场演讲》在2024年末的《AI奇妙夜》晚会上亮相,这段AI生成视频帮助蔡磊完成了一场几乎不可能完成的演讲,很难发出清晰音节的蔡磊向观众传达出了自己的心声。
潮新闻客户端 记者 刘玉涵
“生命在倒计时,与其等死,不如战斗!科技与合作是与病魔抗争的利剑。”
屏幕里,确诊渐冻症五年的“蔡磊”站在观众面前侃侃而谈;屏幕外,AI创作者们对视频进行着最后的优化调整工作。
《请帮我实现一场演讲》在2024年末的《AI奇妙夜》晚会上亮相,这段AI生成视频帮助蔡磊完成了一场几乎不可能完成的演讲,很难发出清晰音节的蔡磊向观众传达出了自己的心声。
1
12月初,可灵AI的创作者温维斯接到了一个特殊的项目:帮助身患渐冻症的蔡磊实现一场演讲。
蔡磊?温维斯在新闻上看到过他的报道,京东集团原副总裁,却在2019年确诊了渐冻症。离开京东之后,他创立了渐冻症患者大数据平台爱斯康医疗,一直在积极对抗病魔,并为病症研究做贡献,是个充满力量的人。
当得知自己可以通过AI实现一场数字人演讲时,蔡磊爽快地答应了。他所遭遇的渐冻症疾病、与渐冻症抗争的过程、以及向外界发声的需求,都与AI数字人的功能和AIGC辅助人类的意义相匹配。
“这个想法很有意思,也很有意义。”温维斯很兴奋,很快参与到创作当中。
一开始,制作小组想通过AI展示蔡磊的生活,以故事叙述的方式和生活场景的画面讲述他的经历。不久方案就被否定:还是回到“演讲”本身。这是一个难得的发声机会,AI能够展现的内容可以更丰富,演讲更适合传达直接、明确的信息。
蔡磊的身体状况不算好,已经无法站立与行走,说话也很困难。作为演讲者,蔡磊最初的AI形象还原了他当下的境况,坐在轮椅上与观众对话。但是——都已经用AI了,都畅想演讲的场面了,为什么不让他站起来?为什么不让他自然地演讲?
方案通过了:就让蔡磊以一个健康的姿态面对公众,讲述他患病的经历和感受、对抗渐冻症所做出的努力、目前渐冻症研究的发展以及对未来的美好展望。借助AI的创造,我们看到了蔡磊痊愈的样子,或许不久的将来,这就是渐冻症患者可以迎接的现实。
“有人说,我这最后一次创业,是骑自行车上月球。其实科技不会自己进步,没有人推动,习以为常的科技进步可能要延迟数十年,甚至更久。”通过他的演讲,我们得知,蔡磊患病以来,持续推进着新技术在治疗之中的应用:搭建“渐愈互助之家”科研平台、组建药物研发团队和人工智能数据分析团队、发起渐冻症公益基金……借助AI技术,渐冻症的攻克找到了新靶点、研发出新药物,智能看护及辅助发声技术都在投入使用。
“第一次感受到了AI的温度。”节目播出后引发全网热议,不少观众纷纷“泪目”表示:“这才是AI在我们身边一直走下去的意义吧。”
2
3分多钟的影片在行业内带来了不小的震动,AI圈的朋友们感到惊喜:AI数字人可以这么自然了!十分好奇地问温维斯:你们的视频用了什么技术?
“很多人都以为我们是用了数字人,这当然也属于数字人,但跟传统意义上的数字人不太一样。”温维斯解释道,这段视频更偏向于AI短片的生产流程。
传统的数字人是用真人录一段视频,然后把录好的视频生成对应的数字人。这个数字人的状态是相对固定的,包括所穿的衣服只可以选择设置好的几件,具有一定的局限性。“我们希望能够想让他出现在哪里,他就出现在哪里,但是目前很难达到这样的效果。”
《请帮我实现一场演讲》采用的则是图生视频的逻辑,首先让AI学习素材训练出人像模型,再根据脚本生成对应的图片,然后通过图片“跑”出一段段分镜视频,最后剪辑成片。如此一来视频的可控性更高,细节调整能够更灵活。
温维斯采集了大量近年蔡磊的采访视频,从中筛选出质量较高的素材对AI进行训练,最终生成和蔡磊几乎相近的图片。另外,他们又从中提取一段段较为清晰的声音片段,训练AI生成和蔡磊本人相似的声音。
远在厦门的温维斯并没有和蔡磊直接见过面,只是通过曾经的影像完成了跨越时空的交流。通过处理这些素材,温维斯重新认识了蔡磊,为他的经历又感动又心酸,也感受到生命意义的重大:“蔡磊在得病之后一直在尝试、体验新的技术,包括这次又想通过AI来为渐冻症患者发声,这种力量真的非常强大。”
为了还原这份感动,AI创作者运用了最新的模型和技术,包括Flux图片生成模型,让生成的静态人像比普通文生图更加精细、更加写实。图片生成视频的过程中又用到可灵AI1.6模型,蔡磊的演讲相较于常规AI视频面临着大量“对口型”工作,是技术上的一大难点,新模型很好地解决了这一问题,让数字人蔡磊的声音和口型、表情的结合更加真实自然。数字人的发声常常机械感很强,缺少抑扬顿挫,为了声音克隆更接近现实,温维斯还运用到海螺AI的新型声音处理技术,让演讲的语句听起来符合真人的情绪。
“AI具有不确定性。”无论是生成的画面还是输出的声音,都不一定会符合创作者的要求。“我要不断去优化素材,或者尝试不同的参数,直到调整到最优的内容。有一点没有衔接上,或者气口没有对好,都要重新调。”不算片段的调整,整体的声音效果温维斯就调整过五版,而创作团队曾在一个镜头的设计中抽取了20余次,才最终确定画面。
节目中,观众除了蔡磊的演讲画面,还能看到丰富的分镜头。当蔡磊叙述经历时,具象的对应画面会补全内容的叙事感;当情绪较浓烈的时候,画面又会拉回到演讲场景之中,借助台下观众的表情、反应等传达出来。技术与设计结合,增强影片的感染力和代入感,帮助观众更沉浸地走入故事之中。
3
节目播出后,温维斯把视频上传到了@温维斯Wenvis 个人微博号、视频号等社交平台,并配文“希望AI能在未来,让痛苦越来越少,让开心幸福越来越多”。评论区收获到许多条留言都是“很温暖”“好感动”“有爱有温度”,作为创作者之一,他感到非常开心、欣慰。2023年,大多数AI视频生成工具还只能生成3-4秒的视频,质量参差不齐,如今已经做出可以打动人心的作品。
AI创作自出现以来风评不算好,因为会让人联想到劳动替代、抄袭等负面影响,很多普通人对AI的发展持有警惕的态度。这一次,AI作品和“温情”这一评价联系在了一起,不少人大呼:“这才是我们欢迎的AI。”“AI就应该做这样的事情。”
“创意是最关键的。”温维斯强调,当技术发展到一定程度之后,深层次的人工智能基本上能完成传统创作内容,但是怎么做出和别人不一样的东西,仍然需要创意的思考。“AI的发展是有两面性的,因为人本身有惰性,如果太依赖AI,可能会逐渐失去思考的能力。AI更多是作为辅助我们的一个工具,而不能成为主导。”
温维斯介绍,AI目前的应用已经很广泛,最吸引人的功能就是实现很多“不可能”。除了帮助渐冻症患者开口演讲,还可以通过AI演绎名人的跨时空对话,比如图灵与爱因斯坦。大众已经可以参与到一些AI小互动中,如“和过去的自己拥抱”“老照片复活”等,不少影视剧还开发了AI角色,观众可以和剧中人实时对话。
那AI是不是也可以实现数字永生?我联想,如果通过影像素材训练出人像模型、声音模型,又让AI习得人的记忆,数字分身是不是就生成了?温维斯肯定了技术上的可操作性,事实上,这一想法已经被实现了。
不久前,歌手包小柏公开了AI女儿的影像。他的女儿包容三年前因病离世,年仅22岁,因为想念,包小柏用AI复刻了一个数字人女儿。为了让虚拟人更接近真实的女儿,包小柏和太太回顾了女儿的一生,给机器填充学习素材,并花了八个月、尝试上千次来修复样本不足的声纹数据。现在,包小柏每天和“女儿”发信息聊天,并期待AI算力提升后能够实现即时互动。在他看来,只要云端不关机,女儿就在。
AI可以打开的世界还满是未知,从爱出发,我们总会找到创造幸福的路径。
“转载请注明出处”
来源:钱江晚报