“AI版”来了？OpenAI重磅上线Sora 2，还有一款同名App

摘要：这两天，AI 技术圈颇为热闹：这边国内的、等公司纷纷为自家大模型更新迭代，那边国外的、OpenAI 也在加速布局，“卷”得众多从业者一时之间不知道究竟应该将目光对准谁。

未来的视频，恐怕仅凭肉眼难以分辨 AI 与人类之作，因为就在今天，生成视频模型再度进化了！

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

这两天，AI 技术圈颇为热闹：这边国内的、等公司纷纷为自家大模型更新迭代，那边国外的、OpenAI 也在加速布局，“卷”得众多从业者一时之间不知道究竟应该将目光对准谁。

今天，OpenAI 时隔一年多，带来了旗下旗舰级视频生成模型—— Sora 2.0 。

如果说初代 Sora 的出现只是 OpenAI 试个水，那么 Sora 2.0 的升级则显得更具杀伤力：它不仅能生成高质量视频，还能自动配上与视频匹配的 AI 音频，让整个视频作品看起来更逼真、更完整。

与此同时，OpenAI 推出了一款同名的 iOS 应用 Sora，还内置了一个叫做“Cameo”的功能，用户可以将自己或朋友的形象插入 AI 视频里自由创作和编辑。当然，OpenAI 也特别强调了，其已采取严格的身份保护措施，防止未经许可的滥用。

除此之外，Sora 未来还将开放 API，允许第三方开发者将 Sora 2 集成进自己的视频编辑工具中，带来更多专业化和细粒度的创作能力。至于安卓用户，也不用担心——Sora 的安卓应用版本正在开发中。

亲眼见证了 Sora 2 的到来，不少人感叹：糟糕，这波是冲着短视频领域巨头抖音和 TikTok 来的，妥妥的“AI 版本的抖音”。

让人“真假难辨”的 Sora 2 生成视频

OpenAI 在官方公告中回顾了 Sora 的发展历程。

最初的 Sora 模型在 2024 年 2 月问世，当时的意义类似于 GPT-1 之于文本的作用：它是视频生成领域的开端，第一次让人真切感受到“这东西真的能用”。

随着算力提升，模型开始展现出一些基础但重要的能力，比如物体持久性——一个球滚出屏幕再回来时，仍然是同一个球。此后，Sora 团队一直专注于让模型具备更强的世界模拟能力。OpenAI 认为，这类系统对训练能够真正理解物理世界的 AI 至关重要。而要做到这一点，关键之一就是在大规模视频数据上进行预训练和后训练——相比语言模型，这方面的研究才刚刚起步。

而现在，Sora 2 的出现，可以说是视频生成领域的“GPT-3.5 时刻”。它能做到很多过去几乎不可能的事情，比如完整呈现奥运会体操动作，只需要一句简单的提示词，就能在极短的时间里得到想要的视频：

a gymnast flips on a balance beam. cinematic

一名体操运动员在平衡木上翻腾。电影感画面。

一名男子从跳板上做冲击式入水动作。

一名男子骑着一匹马，而那匹马又骑在另一匹马背上。

各种稀奇古怪的创意在 Sora 2 的加持下，似乎都变得非常容易实现。

OpenAI 称，在此之前的视频生成模型有个大问题：就是它们往往太“乐观”了，为了凑合完成指令，经常让物体变形，甚至无视现实。比如，让篮球运动员投篮，如果没投中，旧模型可能会直接让球“瞬移”进篮筐。而在 Sora 2 中，如果球没进，它会像现实一样弹到篮板上再反弹下来。

Sora 2 有时会“犯错”，但看起来像是虚拟角色自己出错，而不是物理规律崩坏。虽然还不完美，但它对物理规律的遵守程度，比以前的系统可靠得多。对于一个真正有用的“世界模拟器”来说，这一点非常关键——不仅要能表现成功，也要能真实地表现失败。

除了让物理世界更真实，OpenAI 表示，Sora 2 的可控性也有了大幅提升：它可以按照复杂指令生成多镜头画面，场景切换之间还能保持一致的世界状态。不仅如此，Sora 2 还能生成包含写实、电影感、二次元动漫等各种风格的视频。

这一次尤为值得关注的是，作为通用的视频和音频生成系统，Sora 2 不仅能做画面，还能生成逼真的声音，包括背景音、人物对白和各种音效，而且非常真实。

另外，使用者也可以把现实世界的元素直接放进 Sora 2 里。只要给模型看一段团队成员的视频，它就能把这个人放进任何生成场景中，长相和声音都能比较准确呈现。这项功能不仅适用于真人，也能用于动物或其他物体。

当然，模型还远不完美，会犯一些错误，但这已经证明一个事实：只要继续在视频数据上扩大神经网络规模，我们离“模拟现实”的目标就更近了一步。

Sora 社交应用来了！

全新的 Sora 应用是使用该模型的主要入口。为此，OpenAI 带来了一款全新的 iOS 应用 Sora，主要就是由 Sora 2 来驱动。

用户可以在应用中创建视频、混剪别人的作品、在自定义的 Sora 动态中发现新视频，还能通过 “客串（cameos）”功能把自己或朋友放进视频里。

或许有人会担心自己的身份会被冒用、滥用，对此 OpenAI 透露，其团队针对这一功能也做了严格的验证与控制：

首先，用户在创建 Cameo 时，需要在应用中录制短视频和动态音频样本，系统会通过音频验证确保真实性，防止被冒用。

其次，用户可以自由控制谁能使用自己的 Cameo：仅自己、指定联系人、互相关注的人，或者所有人。这些权限可以随时调整。

其三，用户还可以微调模型生成的形象，纠正服装或口音等偏差，甚至加入有趣的风格化变化。

其四，任何时候，Cameo 拥有者都可以撤销访问权限，或删除包含自己形象的视频，包括他人创建的草稿。OpenAI 表示，这让用户在系统中拥有类似“所有权”的身份控制。

有些小遗憾的是，目前这款应用在初期采用邀请制，OpenAI 希望用户能够与好友一同加入。

据其介绍，Sora 的内容流设计与典型社交媒体有所不同。它不追求让用户长时间刷屏，而是优先展示可能激发创作灵感的视频。内容主要来自用户关注或互动的人群，并且可以通过自然语言指令调整个性化推荐。

青少年与公众安全

OpenAI 在上线时特别强调了青少年安全和使用健康：

防止无尽刷屏：18 岁以下用户默认关闭无限滚动，观看一定数量视频后需要短暂冷却。即便是成人，如果长时间被动刷屏，应用也会提示，鼓励创作而非单纯消费。

未成年人内容保护：系统会对上传的 Cameo 录制或图片进行检测，严格过滤潜在有害或不当内容。

隐私默认更严格：青少年账户限制形象被使用、减少成人发现机会，并防止未经许可的联系。

家长控制：家长可通过 ChatGPT 相关工具管理青少年的体验，包括调整内容流、关闭个性化推荐、管理 Cameo 权限及限制私信功能。

这些措施体现了 OpenAI 平衡创作实验与用户身心健康的意图，尤其关注成瘾行为和不良社交动态的风险。

安全与溯源

除了身份保护，Sora 还配备了更广泛的安全措施：

使用多模态分类器对输入输出内容进行审核。

限制未经同意生成公众人物或逼真肖像。

自动检测有害内容，社交内容流会进行额外审查。

支持溯源功能，如 C2PA 元数据、下载视频的动态水印以及内部追踪，验证 AI 生成内容来源。

与外部红队测试团队合作，针对极端主义、裸体、自残及政治操控等风险进行压力测试。

未来规划

在应用之外，OpenAI 还在开发 sora.com 的新功能，包括分镜工具，让创作者按镜头控制视频展开。据 OpenAI 介绍，这项功能预计几周内上线。Sora 2 的 API 也将在“未来几周”推出，让开发者将视频生成能力集成到自己的工具和编辑器中。

当前，Sora iOS 应用已可下载。用户可以在应用中注册，当账号可用时会收到推送通知。初期上线仅限美国和加拿大，后续会快速扩展到其他国家。收到邀请后，也可通过 sora.com 使用 Sora 2。

Sora 2 初期免费提供，设有相对宽松的限额让用户自由探索，但仍受算力限制。ChatGPT Pro 用户可以在 sora.com 使用实验性的更高质量 Sora 2 Pro 模型（很快也会在 Sora 应用中提供）。未来还会提供 API 接入。Sora 1 Turbo 仍然可用，用户的历史作品会保存在 sora.com 库中。

对于 Sora 2 的发布，OpenAI CEO Sam Altman 在个人博客中表示，Sora 是“ChatGPT 在创意上的时刻”，早期测试者发现 Cameo 功能非常吸引人，能增强互动体验。他也承认潜在风险：服务可能让人上瘾，也可能被用于欺凌。

他强调团队已经采取措施来降低这些风险，并提出几个指导原则：优化长期用户体验、让用户控制内容流、优先创作、帮助用户达成目标。如果几个月后用户觉得生活未改善，OpenAI 将进行重大调整或停止服务。