摘要:南朝梁画家张僧繇在金陵安乐寺墙壁上画了四条龙,但没有画眼睛,他说:“画上眼睛龙就飞走了。”大家都不相信。于是张僧繇为其中一条龙点上了眼睛。一会儿,雷电交加,那条龙破壁而出,乘云飞上了天,没有被点上眼睛的龙仍然留在璧上。
Sora官网
《历代名画记》里面有篇挺有意思的小故事:
南朝梁画家张僧繇在金陵安乐寺墙壁上画了四条龙,但没有画眼睛,他说:“画上眼睛龙就飞走了。”大家都不相信。于是张僧繇为其中一条龙点上了眼睛。一会儿,雷电交加,那条龙破壁而出,乘云飞上了天,没有被点上眼睛的龙仍然留在璧上。
百字小文中,透露着古人对提笔成真的朴素愿望,千年未改。
12月10日,备受期待的AI视频生成模型Sora正式向用户开放——只要输入一段文字,就能轻松生成视频,画面清晰丰富,栩栩如生。
画龙点睛的梦想似乎触手可及。Sora会是那点睛一笔吗?
一
相较于今年2月的首次预告,可以说新版本的Sora有两大变化。
一是在画质(最高支持1080p)、时长(最长20秒)以及画面长宽比方面都为用户提供了选择,还可实现文生视频、图生视频和视频生视频。
二是用户可以通过指令实现视频重混、重新剪辑、循环、混合和风格预设等功能,这让它更像是一个加强版的视频编辑器。
Sora功能演示,图源官网
此前,AI视频生成模型最大的痛点在于其一次性,即一经生成难以修改,Sora在一定程度上解决了这个问题。
在社交网站上,OpenAI首席执行官奥特曼表示,大家可以将Sora看作视频版的GPT-1。2022年,ChatGPT一经发布就迅速风靡全球,用户数在短短两个月内就突破了1亿,被认为是通用人工智能的里程碑时刻。
当然,Sora在遵循物理规律上的欠缺依然无法解决。比如物体相互穿过、凭空出现和消失的现象频繁发生,在网友分享的视频里,还会出现动物跑着跑着就飞起来的情况。有专家表示,作为扩散模型和Transformer的结合体,Sora很可能出现对时空子块单元进行组合时作出了概率统计意义上的“合成谬误”等问题。
Sora之所以被人们津津乐道,根本的原因在于,它能够像人类一样对真实世界有一个较为准确的认知。就像是维特根斯坦在《逻辑哲学论》里说,句子是实在的图像语言。放在人工智能的场景里,通过语言我们在Sora中构筑了一个世界模型,它不仅包括对事物的描述和分类,还包括对事物的关系、规律、原因和结果的理解和预测,从而进行推理和决策。这是它超越视频生成层面的重要意义所在。
价格与权限页面,图源官网
至于大家最关心的价格,ChatGPT plus或ChatGPT Pro的订阅用户可免费使用Sora。前者为20美元/月,最多可生成50次,分辨率最高为720p,时间最长为5秒。ChatGPT Pro为200美元/月,在慢速队列模式下可以无限制生成,快速模式下可生成500个视频,分辨率最高可达1080p,生成的视频时间最长为20秒。
二
从Sora亮相到发布的这10个月里,国内的Sora们一直在抓紧追赶。
字节跳动推出了即梦Dreamnia,快手发布了可灵大模型,腾讯以混元大模型作为核心,发布并开源了混元多模态生成模型,上海稀宇科技的海螺大模型火爆海外等等。
AI生成视频赛道又要卷起来了吗?
有专家表示,Sora最高只能生成20秒视频,较之预告的版本缩水了三分之二,效果离预期有偏差。单看技术指标,Sora的表现还谈不上惊艳,并没有实现对国内有的AI视频生成模型的完全替代。
怪不得有网友评论:“每个人都对OpenAI Sora感到兴奋,但目前对我来说,最适合制作视频还得是海螺和可灵。”
可以说,OpenAI的本次发布给国内的Sora们带来了紧迫感,但还达不到恐慌的地步。
对于影视行业从业者而言,AI视频模型将改变电影工业的生产方式。
奥特曼在直播中表示,对于OpenAI而言,Sora不仅仅是一项技术,更是一种赋能创意人士的工具。
打个比方,科幻电影《瞬息全宇宙》的视频效果便使用了AI技术。Sora大大降低了精美视频的制作门槛,奇思妙想将有更大的呈现空间,“技术不到位”“经费不够”的掣肘都将减小很多。
《自然》文章,图源网络
Sora及类似技术的滥用风险也引起了人们的担忧。在数字信息日益泛滥的今天,如何鉴别真伪、防止误导性信息的传播,成为了亟待解决的问题。
今年3月,国际顶级学术期刊《自然》刊登了“How OpenAI’s text-to-video tool Sora could change science-and society”一文,便提出“在Sora等AI技术迅速发展的当下,公众对AI生成内容的鉴别能力变得尤为重要。
这不仅是技术发展的挑战,更是教育系统需要积极应对的问题。
“转载请注明出处”
来源:钱江晚报