摘要:终于,Sora正式版来了!OpenAI将AI大模型竞赛带入AI视频创作新纪元。在12天的“ship-mas”直播系列的第三天,OpenAI终于向全球推出了备受期待的Sora升级版AI模型。这一版本不仅开启了全新的创作可能性,还代表着AI大模型文本生成视频技术的
大数据文摘受权转载自头部科技
文丨Darice
终于,Sora正式版来了!OpenAI将AI大模型竞赛带入AI视频创作新纪元。在12天的“ship-mas”直播系列的第三天,OpenAI终于向全球推出了备受期待的Sora升级版AI模型。这一版本不仅开启了全新的创作可能性,还代表着AI大模型文本生成视频技术的飞跃。早在今年2月,OpenAI首次预告了Sora的问世,而今天,Sora Turbo升级版正式向ChatGPT订阅用户开放。新版模型大大增强了文本生成视频、图像动画、视频混编等功能,让用户的创作体验更加丰富多彩。
如果您想亲自体验,不妨登录网站一试:https://sora.com/onboarding。视频对AI发展的重要性OpenAI的首席执行官Sam Altman强调,视频对AI发展的重要性。
1.为创意人士制作工具:Altman表示,OpenAI一直致力于为创意人士提供强大的工具,帮助他们推动创作。这种新工具的推出为AI在创意领域的应用打开了新的篇章,并为未来的AI创作工具展现了令人兴奋的前景。2.突破文本限制:他指出,若AI仅限于文本互动,将错失许多重要的创作维度。通过AI生成视频,用户将能够以全新的方式与技术互动,极大地改变我们与计算机的交互方式。3.对AGI的影响:视频生成对于实现通用人工智能(AGI)的目标至关重要。Altman认为,视频将成为AI学习的关键环境,帮助AI掌握许多复杂的技能和任务。
Sora的设计灵感来源于大型语言模型(LLM),模型通过训练互联网规模数据来获得通用能力。LLM范式的成功部分得益于使用了能够巧妙地将文本(包括代码、数学公式和各种自然语言)的不同模态统一起来的标记。
LLM使用文本标记,Sora使用视觉补丁。补丁是训练处理各种类型和视频和图像的生成式模型时一种高度可扩展且有效的表示方法。将视频转换为补丁的过程是,首先将视频压缩到低维潜在空间,然后将其表示分解为时空补丁。
精选的公开可用数据,主要收集自行业标准机器学习数据集和网络爬虫。
来自数据合作伙伴关系的专有数据,我们与合作伙伴建立合作关系,以访问非公开数据。例如,OpenAI与Shutterstock和Pond5合作,构建和提供AI生成的图像。及与合作伙伴合作,委托和创建符合需求的数据集。
人类数据:来自AI培训师、红队成员和员工的反馈。预训练过滤和数据预处理:除了预训练阶段后实施的缓解措施外,预训练过滤缓解措施还可以提供额外的防御层,与其他安全缓解措施一起,有助于从数据集中排除不需要和有害的数据。在训练之前,所有数据集都会经过此过滤过程,移除最露骨、暴力或其他敏感的内容(例如,某些仇恨符号),这是对用于训练其他模型(包括DALL·E 2和DALL·E 3)的数据进行过滤的方法的扩展。对Sora的质疑和昂贵的订阅尽管Sora提供了强大的视频生成功能,但一些细节上仍面临挑战。例如,在15秒及以上的视频中展现的角色(尤其是人物),其表情和动作在长视频中如何保持一致;人体结构如手、腿等部位发生动作时的解剖学错误等。知名博主YouTuber Brownlee在测试中指出,这一问题仍需改进。
同样OpenAI也把对商业模式的探索置于聚光灯下。对于ChatGPT Plus订阅用户(20美金/月),Sora允许每月生成最多50个视频,分辨率最高可达720p,视频长度仅为5秒。而ChatGPT Pro订阅(200美金/月)则提供无限生成次数,最多可生成500个优先视频,分辨率提升至1080p,视频时长可达20秒;Pro用户还可以下载无水印视频,并支持同时并发生成最多5个任务。
来源:大数据文摘
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!