摘要:Logenic AI联合创始人李博杰曾向记者指出,此前发布的Sora模型本身需要占用大量计算资源,生成一分钟视频的时间高达约半小时,且并非单台设备完成,而是需要多台并行运行,1分钟视频的成本可能超过100美元。
姗姗来迟却依旧遥遥领先
作者/ IT时报记者 贾天荣
编辑/ 郝俊慧 孙妍
OpenAI 的“12天发布会大戏”唱到第三场,Sora终于来了!
12月10日,OpenAI宣布正式向用户开放人工智能视频生成模型Sora,距离OpenAI首次公开预览这款产品,已过去10个月。
时间并没有让Sora热度减退,用户蜂拥而至,官方网站瞬间流量激增,直至崩溃,一度暂停注册和登录服务。
OpenAI说:“这是给大家准备的(圣诞)节日礼物。”
贵是真的贵
4美元生成5秒1080P视频
两个月前,《IT时报》曾报道,Sora亮相超过半年却迟迟未能正式上线,与其高昂的视频生成成本有直接关系。
Logenic AI联合创始人李博杰曾向记者指出,此前发布的Sora模型本身需要占用大量计算资源,生成一分钟视频的时间高达约半小时,且并非单台设备完成,而是需要多台并行运行,1分钟视频的成本可能超过100美元。
李博杰认为,Sora如何微调成更小、更具成本效益的模型,以在特定任务上接近高级模型的性能,是其要解决的首要问题。
随着Sora正式发布,OpenAI在X平台上表示,自2月份以来,他们一直在构建Sora Turbo,后者是一个速度明显更快的模型版本,今天将其作为独立产品向Plus和Pro用户开放。
记者注意到,相比初次亮相的Sora,Sora Turbo生成效率显著提升,能够通过文本直接生成最多20秒或最高分辨率1080P的视频,成为目前全球生成时长最长的视频模型之一。该模型支持文本加图片或视频的输入,可生成特定视频内容,并能够编辑生成视频,使生成效果更加可控。
定价方面,Sora Turbo将免费提供给ChatGPT Plus和Pro用户,每月月租20美元(约合人民币145元)的Plus用户,每月最多可以生成50个480P分辨率的优先视频;Pro订阅者则最多可生成500个优先视频,普通视频无限量生成,可下载无水印版视频,对应每月费用为200美元(约合1450元)。
Sora Turbo采用了灵活的积分制定价策略,需要耗费的积分因分辨率和持续时间而异,已经是ChatGPT Plus和Pro会员的用户,无需额外费用就能使用。
积分价格表
比如生成一个480P、5s的视频需要25个积分,如果生成480P、20s的视频则需要150个积分。此外,如果使用Remix(重混)、Re-cut(重新剪辑)、Storyboard(故事板)、Loop(循环)、Blend(混合)这些功能,则需要额外的积分。
额外积分表
对于订阅用户而言,ChatGPT Plus计划每月20美元,包含1000积分,支持最高720p分辨率和5秒时长的视频生成;而200美元的ChatGPT Pro计划提供10000积分,支持最高1080p分辨率、20秒时长,并支持同时生成最多5个视频。
由此计算,每积分成本为0.02美元(约人民币0.145元),在不使用其他功能的前提下,Sora生成一个5秒480P视频成本为0.5美元,折合人民币3.63元。生成5秒1080p视频成本为4美元(约人民币27.6元)。
这一定价也引发了不同的声音,有用户直呼“太贵”,有用户却认为“一分钱一分货”。
视频创作者俞国汉向《IT时报》记者表示,相较于Runway提供的95美元/月服务,订阅费 200美元/月的Sora,在性能和功能上完全值得。
虽然当前价格仍被部分用户认为偏高,但这已是OpenAI努力降低成本的结果。OpenAI还透露,他们计划针对不同用户类型开发新的定价模式,并将于明年初推出。
需要注意的是,Sora暂不支持ChatGPT Team、Enterprise和Edu用户,也不向18岁以下用户开放。此外,英国、瑞士和欧盟等地区目前无法访问Sora。
目前,Sora已进入无限制使用阶段,想要体验的用户可以抓紧时间试用。
体验者反馈
视频一致性大突破
Sora一经上线,已经有一大批视频创作者迫不及待地争先试用。
一位专业视频博主在体验正式版Sora后总结认为,不管是用户体验的完整性,还是视频修改与编辑的丰富性,Sora都非常强大,运动效果十分流畅,故事板生成视频的一致性也很“完美”。
记者注意到,OpenAI在直播及官网上详细介绍了Sora的几项核心功能,包括Remix(重混)、Re-cut(重新剪辑)、Storyboard(故事板)、Loop(循环)、Blend(混合)以及Style presets(风格预设)。
作为Sora的一项亮点功能,Storyboard(故事板)通过带有关键帧的时间轴,允许用户在个人时间轴上组织和编辑独特的视频序列。这项功能为创作者提供了更大的创作空间,使视频内容的规划与调整更加灵活。
Remix(重混)功能使用户能够替换、删除或重新构想视频中的元素,赋予用户更高的自由度来塑造最终效果。例如,官网的演示视频中,用户可以将设计的“打开大门通向图书馆”场景中的普通大门替换为法式对开门,可以将图书馆变成一艘宇宙飞船,甚至可以轻松地移除宇宙飞船,替换成一片丛林,最后再用月球景观代替丛林,创造出富有创意和变化的视频效果。
Re-cut (重新剪辑)功能让用户能够从视频中找到最佳的帧并向任意方向延伸,从而精细调整视频内容。Loop (循环)可通过在开头和结尾添加额外帧来连接视频片段,创建无缝的重复视频,达到平滑循环的效果。Blend (混合)则允许用户将两个完全不同的视频融合成一个无缝剪辑,创造和谐的过渡效果。
Style presets(风格预设) 使用户能够根据自己的创意,选择或自定义不同的风格,实现快速创作。例如,用户可以将两头猛犸象在雪地里走路的场景,转换成纸工艺品风格。
有体验者,Sora正式版功能比自己想象得更丰富,尤其是Remix、Blend、Loop等功能让他感到耳目一新,而Storyboard功能则最为令人印象深刻。
在此前的采访中,俞国汉就曾指出,商用AI视频制作中,画面一致性、分辨率和语义理解能力是决定视频质量的关键因素。
尽管文生视频技术为创意工作开辟了新的空间,但其现有的局限性使它在商业应用中的价值远不及图生视频。目前来看,文生视频大模型大多时候更像是爱好者的“玩具”,难以满足商业需求。因为在短剧制作中,需要确保人物形象和其他元素的一致性,而文生视频往往只能生成几秒钟的内容,且下一秒的内容可能会发生变化,这显然无法满足专业制作的要求。
李博杰此前也提到,在技术层面,文生视频面临的关键挑战之一是风格一致性的问题。例如,在生成一个10秒的视频时,人物形象是否保持一致,是否会出现前后视频中人物外貌不符的情况。此外,视频中的物理规律是否符合常识也是一个难点。
而此次发布的正式版Sora,被体验者盛赞:通过不同的Prompt,Sora能够生成几乎完美一致性的分镜,从而组成一段流畅的影片。其Storyboard功能尤为出色,能够通过时间轴中的分镜帧引导每个画面的内容,确保镜头一致性,并支持可控的镜头切换和多动作引导。
视频版GPT-1
有不足却仍遥遥领先
俞国汉在接受《IT时报》记者采访时表示,尽管他尚未亲自体验Sora,但从目前与其他创作者的交流来看,Sora显然超越了以往的文生视频工具,展现了更强大的功能。他直言:“贵是真的贵,强也是真的强。”
他进一步指出,前不久腾讯开源了混元大模型,大家都认为当前开源技术已接近闭源的水平,但Sora一推出,显示了闭源技术依旧领先一代,表现出更强的实力和潜力。
另一方面,在试用者们的反馈中,如果说Sora的文生视频能力尚且褒贬不一,其图生视频的表现则不尽如人意。俞国汉透露,在与同行的交流中,正式版Sora的图生视频能力遭到不少批评:“大家都对Sora的图生视频表现感到吃惊,认为其效果非常差。”
国外科技博主Marques Brownlee也在测评一周后表示,Sora存在一些弊端,如对物理规律的理解并不够好,仍会出现人的手部不自然、文字乱码、动物跑着跑着就飞起来等情况。
此外,OpenAI还开发了全新UI,并提供社区分享服务,允许用户分享自己生成的视频,或借鉴他人的提示效果来完善自己的作品。
奥特曼在X(推特)发文表示,最令他兴奋的一点是与其他人共同创作的便捷性,感觉就像是一个有趣的新事物。大家可以将Sora看作视频版的GPT-1。
随着Sora正式版发布,文生视频领域又将再次“变天”。
排版/ 季嘉颖
图片/ OpenAI
E N D
来源:IT时报一点号