摘要:北京时间12月10日凌晨,OpenAI宣布,旗下视频生成模型Sora正式面向大众推出。同时,公司宣布推出Sora新高端加速版本Sora Turbo,该版本将作为独立产品提供给ChatGPT Plus和Pro用户。场面之火爆,Sora Turbo一经发布服务器就
整理自 | 定焦One、极客公园、甲子光年
北京时间12月10日凌晨,OpenAI宣布,旗下视频生成模型Sora正式面向大众推出。同时,公司宣布推出Sora新高端加速版本Sora Turbo,该版本将作为独立产品提供给ChatGPT Plus和Pro用户。场面之火爆,Sora Turbo一经发布服务器就被挤爆了。
Sora Turbo具有今年早些时候OpenAI在「世界模拟技术」报告中提到的所有功能,此外还增加了从文本生成视频、动画图像和混合视频等功能。先来欣赏下Sora官网视频 ↓
(Sora官网视频)
继今年2月释出视频样片后,Sora引发了全球人工智能界热潮,此后国内外人工智能公司纷纷推出文生视频产品。而作为这一赛道的开创者,Sora终于揭开了神秘面纱。
Sora的变化主要集中在三个方面
1. 全新设计的界面
全新的界面设计让用户可以更方便地通过文本、图像或视频提示使用Sora。此外,还推出了“特色板块”和“最新动态”,展示社区创作者的优秀作品并持续更新。
(OpenAI Sora官方使用指南)
2. 时长
作为Sora的全新升级版本,Sora Turbo支持单次生成1080p分辨率、最长20秒的视频,在时长上有明显突破。同时灵活支持横屏(16:9)、正方形(1:1)和竖屏(9:16)等多种画面比例,适配不同平台。生成方式也是多样化的,可通过文字提示词生成视频,或者上传图片、视频作为参考。
(Sora Turbo的效果展示)
能生成的视频时间越长,意味着对内容一致性、避免重复、衔接过渡上要求更高,模型的优化和训练数据的质量在其中起着关键作用。
3. 强大的编辑功能
Sora Turbo更大的亮点在于,在文、图生视频的基础功能之上引入了多种高级编辑功能,具体如下。此前,AI生成视频的一大痛点在于一次性生成以后很难再“微调”,这次Sora一定程度上解决了这一问题。
(1)Remix(重混):只需简单修改提示词,即可替换、移除或重新生成视频中的某个要素,如下图所示,在生成“推开图书馆的大门”后,可将大门换成法式风格。
(2)Re-cut(重新剪辑):寻找视频中的最佳帧,并从此延展或循环剪辑。例如官方示例教程中,从第2秒剪开,Sora可基于前2秒的内容重新混合生成后面的视频。
(OpenAI官方示例教程)
(3)Storyboard(故事板):精准指定每一帧的内容,控制每个时间段的画面。比如,让视频的前114帧生成“红色的背景下,远处停靠着一艘宇宙飞船”;114-324帧场景变为“从宇宙飞船内部向外看,一位宇航员站在中间”;324-440帧,将画面聚焦到宇航员眼睛的特写镜头,他的眼睛被针织面料制成的面罩包裹住。
(4)Loop(循环):一键制作无缝衔接的循环短片。例如:一直奔跑的羊群、不断翻涌的浪花,就可以用Loop来生成。
(OpenAI官方示例教程)
(5)Blend(混合):可以将两个视频混合在一起。如下图演示了将雪花飘落和花朵飘落视频的混合效果,过渡很“丝滑”。OpenAI方面称,这是其它AI视频从未见过的功能。
(6)Style presets(风格预设):用户可以选择预设的风格来创建视频,快速设定视频的视觉风格。视频目前支持五种风格,Balloon World(气球世界)、Stop Motion(定格动画)、Archival(档案材料)、Film Noir(黑白电影)、Cardboard & Paper(纸工艺品)。
深度测评与评价
Youtube科技评测网红马克斯·基思·布朗利(Marques Brownlee,网名MKBHD)对Sora进行了深度评测。
布朗利发现Sora擅长粒子和流体模拟,“令人惊讶的是,Sora对流体动力学的处理相当出色,水的波动和火焰的效果往往能达到令人信服的程度,即使烟雾效果可能还不够完美”。但他同时也认为,Sora完全不懂物理。
从官方展示的视频也可以看出,Sora对“运动”的理解还不全面,有时甚至错误百出。比如在一个猴子轮滑的的视频中,可在看到猴子的右腿“毫无防备”地变成了左腿。
以及在提示词为“rockefeller center is overrun by golden retrievers! everywhere you look, there are golden retrievers.”的视频中,金毛猎犬的数量模糊,每个个体的形状不稳,又时隐时现,比如有的脑袋突然变成了尾巴。
对于这些不足,OpenAI表示:“Sora是一款强大的工具,使你能够跨越物理限制,在多个场景中同时发挥创造力,探索各种全新的可能性。更重要的是,我们认为它极大地扩展了幕后创作者的创作空间,赋予他们前所未有的能力去实现创意。”
Sora团队也“泼了一盆冷水”来控制用户预期:“如果你带着这样的期望来到 Sora,认为只需点击一个按钮就能生成一部故事片,那么你可能抱有错误的期望。”
Sora正式发布后,很多视频case已经在网上传播。对于Sora真实的“买家秀”效果,口碑评价出现了两极分化。国内不少专家也第一时间对Sora进行了评价。
清华大学人工智能研究院副院长、生数科技首席科学家朱军认为:Sora正式上线所带来的冲击度,相比今年二月的首次发布已经弱了很多。视频生成模型在今年有了长足的发展,已经完全不是Sora二月份刚发布时的阶段。整体来说,Sora的发布有一些产品上亮点,尤其是视频编辑的能力。但在基础模型能力的表现上其实没有太多的亮点,效果在预期之内,比如Sora的生成速度看上去还是挺长的,大概在分钟级,而且成本也不低,这都可能会影响后续用户的使用以及商业化的进展。
智谱CEO张鹏表示:Sora的效果离自己的预期有一点偏差。如果看技术指标,国内有的视频生成模型不比Sora差。当然视频模型的比拼肯定不是简单地对比参数,而是如何产生实际的应用、产生生产力。Sora这次发布把很大的精力放在了产品而非模型上,比如视频编辑能力、工作流,这是面向用户需求的转变。
北京智源人工智能研究院院长王仲远认为:Sora的上线基本符合预期,没有年初发布时的惊艳效果。从产品上线时间来看,国内公司也实际上已经早于OpenAI做出了产品级的模型。
当地时间12月9日晚些时候,美国以及大多数其他国家的用户,已经可以访问官网(Sora.com)体验Sora。但欧洲、英国、中国大陆等地暂不能使用,对此,OpenAI尚未给出具体上线时间的安排。
在收费方面,Sora对ChatGPT的Plus会员(每月20美元)和Pro会员(每月200美元)直接开放使用。
Plus会员每月可以生成最多50个高级视频,最大分辨率为720p、最长时长为5秒。
Pro会员每月可以生成最多500个高级视频,最大分辨率为1080p、时长最长可达20秒,以及无限普通视频,并且下载无水印。
(不同会员对Sora的使用额度|图片来源:OpenAI)
此外,OpenAI正在为不同类型用户开发个性化的定价方案,预计将于2025年年初推出。
在推广Sora Turbo的同时,OpenAI对于技术的安全性和伦理使用也非常重视。他们对模型内置了多项安全措施,例如加入C2PA元数据确保视频的透明度,并验证视频的来源。同时OpenAI还设立了红队测试,这些测试由信息误导、仇恨内容和偏见等领域的专家进行。
来源:风暴使者