摘要:这两天,AI 技术圈颇为热闹:这边国内的 、等公司纷纷为自家大模型更新迭代,那边国外的、OpenAI 也在加速布局,“卷”得众多从业者一时之间不知道究竟应该将目光对准谁。
未来的视频,恐怕仅凭肉眼难以分辨 AI 与人类之作,因为就在今天,生成视频模型再度进化了!
整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
这两天,AI 技术圈颇为热闹:这边国内的 、等公司纷纷为自家大模型更新迭代,那边国外的、OpenAI 也在加速布局,“卷”得众多从业者一时之间不知道究竟应该将目光对准谁。
今天,OpenAI 时隔一年多,带来了旗下旗舰级视频生成模型—— Sora 2.0 。
如果说初代 Sora 的出现只是 OpenAI 试个水,那么 Sora 2.0 的升级则显得更具杀伤力:它不仅能生成高质量视频,还能自动配上与视频匹配的 AI 音频,让整个视频作品看起来更逼真、更完整。
与此同时,OpenAI 推出了一款同名的 iOS 应用 Sora,还内置了一个叫做“Cameo”的功能,用户可以将自己或朋友的形象插入 AI 视频里自由创作和编辑。当然,OpenAI 也特别强调了,其已采取严格的身份保护措施,防止未经许可的滥用。
除此之外,Sora 未来还将开放 API,允许第三方开发者将 Sora 2 集成进自己的视频编辑工具中,带来更多专业化和细粒度的创作能力。至于安卓用户,也不用担心——Sora 的安卓应用版本正在开发中。
亲眼见证了 Sora 2 的到来,不少人感叹:糟糕,这波是冲着短视频领域巨头抖音和 TikTok 来的,妥妥的“AI 版本的抖音”。
让人“真假难辨”的 Sora 2 生成视频
OpenAI 在官方公告中回顾了 Sora 的发展历程。
最初的 Sora 模型在 2024 年 2 月问世,当时的意义类似于 GPT-1 之于文本的作用:它是视频生成领域的开端,第一次让人真切感受到“这东西真的能用”。
随着算力提升,模型开始展现出一些基础但重要的能力,比如物体持久性——一个球滚出屏幕再回来时,仍然是同一个球。此后,Sora 团队一直专注于让模型具备更强的世界模拟能力。OpenAI 认为,这类系统对训练能够真正理解物理世界的 AI 至关重要。而要做到这一点,关键之一就是在大规模视频数据上进行预训练和后训练——相比语言模型,这方面的研究才刚刚起步。
而现在,Sora 2 的出现,可以说是视频生成领域的“GPT-3.5 时刻”。它能做到很多过去几乎不可能的事情,比如完整呈现奥运会体操动作,只需要一句简单的提示词,就能在极短的时间里得到想要的视频:
a gymnast flips on a balance beam. cinematic
一名体操运动员在平衡木上翻腾。电影感画面。
一名男子从跳板上做冲击式入水动作。
一名男子骑着一匹马,而那匹马又骑在另一匹马背上。
各种稀奇古怪的创意在 Sora 2 的加持下,似乎都变得非常容易实现。
OpenAI 称,在此之前的视频生成模型有个大问题:就是它们往往太“乐观”了,为了凑合完成指令,经常让物体变形,甚至无视现实。比如,让篮球运动员投篮,如果没投中,旧模型可能会直接让球“瞬移”进篮筐。而在 Sora 2 中,如果球没进,它会像现实一样弹到篮板上再反弹下来。
Sora 2 有时会“犯错”,但看起来像是虚拟角色自己出错,而不是物理规律崩坏。虽然还不完美,但它对物理规律的遵守程度,比以前的系统可靠得多。对于一个真正有用的“世界模拟器”来说,这一点非常关键——不仅要能表现成功,也要能真实地表现失败。
除了让物理世界更真实,OpenAI 表示,Sora 2 的可控性也有了大幅提升:它可以按照复杂指令生成多镜头画面,场景切换之间还能保持一致的世界状态。不仅如此,Sora 2 还能生成包含写实、电影感、二次元动漫等各种风格的视频。
这一次尤为值得关注的是,作为通用的视频和音频生成系统,Sora 2 不仅能做画面,还能生成逼真的声音,包括背景音、人物对白和各种音效,而且非常真实。
另外,使用者也可以把现实世界的元素直接放进 Sora 2 里。只要给模型看一段团队成员的视频,它就能把这个人放进任何生成场景中,长相和声音都能比较准确呈现。这项功能不仅适用于真人,也能用于动物或其他物体。
当然,模型还远不完美,会犯一些错误,但这已经证明一个事实:只要继续在视频数据上扩大神经网络规模,我们离“模拟现实”的目标就更近了一步。
Sora 社交应用来了!全新的 Sora 应用是使用该模型的主要入口。为此,OpenAI 带来了一款全新的 iOS 应用 Sora,主要就是由 Sora 2 来驱动。
用户可以在应用中创建视频、混剪别人的作品、在自定义的 Sora 动态中发现新视频,还能通过 “客串(cameos)”功能把自己或朋友放进视频里。
或许有人会担心自己的身份会被冒用、滥用,对此 OpenAI 透露,其团队针对这一功能也做了严格的验证与控制:
首先,用户在创建 Cameo 时,需要在应用中录制短视频和动态音频样本,系统会通过音频验证确保真实性,防止被冒用。
其次,用户可以自由控制谁能使用自己的 Cameo:仅自己、指定联系人、互相关注的人,或者所有人。这些权限可以随时调整。
其三,用户还可以微调模型生成的形象,纠正服装或口音等偏差,甚至加入有趣的风格化变化。
其四,任何时候,Cameo 拥有者都可以撤销访问权限,或删除包含自己形象的视频,包括他人创建的草稿。OpenAI 表示,这让用户在系统中拥有类似“所有权”的身份控制。
有些小遗憾的是,目前这款应用在初期采用邀请制,OpenAI 希望用户能够与好友一同加入。
据其介绍,Sora 的内容流设计与典型社交媒体有所不同。它不追求让用户长时间刷屏,而是优先展示可能激发创作灵感的视频。内容主要来自用户关注或互动的人群,并且可以通过自然语言指令调整个性化推荐。
青少年与公众安全
OpenAI 在上线时特别强调了青少年安全和使用健康:
防止无尽刷屏:18 岁以下用户默认关闭无限滚动,观看一定数量视频后需要短暂冷却。即便是成人,如果长时间被动刷屏,应用也会提示,鼓励创作而非单纯消费。
未成年人内容保护:系统会对上传的 Cameo 录制或图片进行检测,严格过滤潜在有害或不当内容。
隐私默认更严格:青少年账户限制形象被使用、减少成人发现机会,并防止未经许可的联系。
家长控制:家长可通过 ChatGPT 相关工具管理青少年的体验,包括调整内容流、关闭个性化推荐、管理 Cameo 权限及限制私信功能。
这些措施体现了 OpenAI 平衡创作实验与用户身心健康的意图,尤其关注成瘾行为和不良社交动态的风险。
安全与溯源
除了身份保护,Sora 还配备了更广泛的安全措施:
使用多模态分类器对输入输出内容进行审核。
限制未经同意生成公众人物或逼真肖像。
自动检测有害内容,社交内容流会进行额外审查。
支持溯源功能,如 C2PA 元数据、下载视频的动态水印以及内部追踪,验证 AI 生成内容来源。
与外部红队测试团队合作,针对极端主义、裸体、自残及政治操控等风险进行压力测试。
未来规划
在应用之外,OpenAI 还在开发 sora.com 的新功能,包括分镜工具,让创作者按镜头控制视频展开。据 OpenAI 介绍,这项功能预计几周内上线。Sora 2 的 API 也将在“未来几周”推出,让开发者将视频生成能力集成到自己的工具和编辑器中。
当前,Sora iOS 应用已可下载。用户可以在应用中注册,当账号可用时会收到推送通知。初期上线仅限美国和加拿大,后续会快速扩展到其他国家。收到邀请后,也可通过 sora.com 使用 Sora 2。
Sora 2 初期免费提供,设有相对宽松的限额让用户自由探索,但仍受算力限制。ChatGPT Pro 用户可以在 sora.com 使用实验性的更高质量 Sora 2 Pro 模型(很快也会在 Sora 应用中提供)。未来还会提供 API 接入。Sora 1 Turbo 仍然可用,用户的历史作品会保存在 sora.com 库中。
对于 Sora 2 的发布,OpenAI CEO Sam Altman 在个人博客中表示,Sora 是“ChatGPT 在创意上的时刻”,早期测试者发现 Cameo 功能非常吸引人,能增强互动体验。他也承认潜在风险:服务可能让人上瘾,也可能被用于欺凌。
他强调团队已经采取措施来降低这些风险,并提出几个指导原则:优化长期用户体验、让用户控制内容流、优先创作、帮助用户达成目标。如果几个月后用户觉得生活未改善,OpenAI 将进行重大调整或停止服务。
来源:CSDN一点号