摘要:与只能生成短视频片段的早期模型不同,Sora 创作的一分钟长视频从第一帧到最后一帧都具有渐进感和视觉连贯性。例如,用户输入 “一位时尚女性走在东京的街道上,街道上到处是温暖的霓虹灯和动画城市标志。她身穿黑色皮夹克、红色长裙和黑色靴子,手拿黑色钱包。她戴着太阳镜
Sora 是 OpenAI 于 2024 年 2 月发布的 “文本到视频” 生成式人工智能模型。它能生成长达一分钟且具有视觉连贯性的视频,在视觉生成领域取得了重大突破。
与只能生成短视频片段的早期模型不同,Sora 创作的一分钟长视频从第一帧到最后一帧都具有渐进感和视觉连贯性。例如,用户输入 “一位时尚女性走在东京的街道上,街道上到处是温暖的霓虹灯和动画城市标志。她身穿黑色皮夹克、红色长裙和黑色靴子,手拿黑色钱包。她戴着太阳镜,涂着红色唇膏。她走起路来自信而随意。街道潮湿而反光,与五颜六色的灯光形成镜面效果。许多行人走来走去。”Sora 能够根据这样的文本描述,生成具有高度细致背景、复杂镜头运用和充满情感角色表现的视频。
Sora 的另一个特性是其对物理世界模拟的潜力。它可以根据 “文本指令” 生成逼真或富有想象力的场景视频,并展现出模拟物理世界的潜力。比如 “两艘海盗船在一杯咖啡中航行时的逼真特写视频” 以及 “几头巨大的长毛猛犸象在雪白的草地上漫步,它们长长的毛发随风轻扬,远处是白雪覆盖的树木和壮观的雪山,午后的光线伴着飘渺的云朵和远处高高挂起的太阳,营造出温暖的光晕,低机位拍摄的景色令人惊叹,捕捉到了大型毛茸茸的哺乳动物,摄影和景深都非常漂亮。”Sora 不仅能理解用户在提示中提出的要求,还能理解这些事物在物理世界中是如何存在的,能够生成包含多个角色、特定运动类型,以及主体和背景等准确细节的复杂场景。
此外,Sora 还可以对视频编辑,在两个输入视频之间逐步插值,在主题和场景构成完全不同的视频之间创建无缝过渡。然而,Sora 目前还存在许多局限性。它可能难以准确模拟复杂场景中的物理现象,也可能无法理解具体的因果关系。
Sora 模型的技术架构基于先进的神经网络结构,如 Transformer 模型及其变体,利用大量的训练数据来学习如何将文本描述转换成相应的视觉场景。其工作流程通常涉及接收用户提供的文本指令,然后通过复杂的算法分析这些信息,并据此构建出连贯且符合上下文逻辑的画面序列,这涉及到对语义理解、场景构造以及动画效果合成等多个步骤的综合运用。
Sora 与市面上其他视频生成产品相比具有三个显著的特性。一是能够生成长达 60 秒的视频,这在视频生成领域堪称超长。例如,谷歌在今年 1 月发布的 Lumiere 模型能够生成 5 秒钟且帧数达 80 的视频,Gen - 2 经过技术更新后,可以生成长达 18 秒的视频,Pika 能生成的视频时长仅为 3 秒。二是 Sora 的视频呈现了多角度的镜头变换,增加了视频的丰富性和观赏性。通过与 Gen - 2 和 Lumiere 生成模型制作的视频对比,Sora 生成的视频能实现一个场景中不同角度镜头的切换,且视频中的角色能够保持内容上的连贯性和一致性。三是 Sora 引入了所谓的 “世界模型”,能够真实并客观地呈现物体间的相互作用,甚至能够反映出某些物理规律,比如画笔接触纸张时能够生成绘画痕迹,嘴唇咬向汉堡时,汉堡上留下了牙印。
Sora 的强大之处在于其能够根据文本描述,生成长达 60 秒的视频,其中包含精细复杂的场景、生动的角色表情及复杂的镜头运动。无论是科幻场景,还是日常生活的琐碎片段,Sora 都能实现。Sora 还可以根据用户提供的图片,生成出延续其风格和主题的视频,或者在原有的视频基础上,添加或删除一些元素,创造出新的效果。Sora 能够模拟出物体和角色在三维空间中的运动和交互,即使它们被遮挡,也可以保持一致性。Sora 还能够模拟出物理交互的反馈,比如画家在画纸上的笔触,或者球员在球场上的动作,让视频看起来更加真实自然。
Sora 的参数量约为 30 亿,这在目前的人工智能领域并不算大,以 Gemini 为例,其参数量至少达到万亿级别。但是,Sora 的生成能力远超 Gemini,这说明 Sora 的模型非常高效,能够在有限的参数量下,实现强大的功能。
Sora 的出现,无疑是人工智能领域的一个里程碑。但它也带来了一些担忧和质疑。一方面,Sora 等新的人工智能工具很可能会带来假视频的泛滥,而人们也会越来越难以分辨这些视频的真假。这对于社会的信任和安全会造成威胁,如造谣、欺诈等。另一方面,Sora 等也可能会对许多行业和职业产生冲击,如影视、广告、教育、游戏等。有人担心,他们的工作会被人工智能取代,或者他们的创作会被人工智能抄袭。
OpenAI 作为行业领军者,其龙头地位及影响力不容小觑。10 月 3 日获得 66 亿美元融资,投后估值达 1570 亿美元,成为有史以来估值最高的初创公司之一。这一巨额融资不仅彰显了 OpenAI 在人工智能领域的强大实力,也吸引了众多投资者的目光。
OpenAI 的影响力主要体现在其发布的 Sora 模型上。Sora 模型受到广泛关注,其强大的功能和创新的技术为视频生成领域带来了重大突破。OpenAI 通过不断的技术创新和研发投入,巩固了其在人工智能领域的领先地位。
此次融资将为 OpenAI 提供更多的资源和支持,使其能够进一步推进人工智能研究,提高计算能力,并研发解决复杂问题的工具。这将有助于 OpenAI 在未来继续推出更先进的人工智能产品,满足市场需求。
参考消息网 10 月 4 日报道,拥有 ChatGPT 的 OpenAI 获得 66 亿美元的新融资,并将其估值推高至 1570 亿美元,巩固了其在人工智能领域的全球领导者地位。OpenAI 计划利用这笔资金推进其人工智能研究,提高计算能力,并研发解决复杂问题的工具。预计本轮融资得到的资金将用于支持 GPT - 4 的后续产品开发,并加速 Sora 的发布。
OpenAI 在 2022 年发布了 ChatGPT,并由此获得影响力。ChatGPT 是有史以来最快速被用户下载的应用程序之一,展示了生成式人工智能按照简单提示生成类人工内容的强大功能。OpenAI 随后推出了 GPT - 4,这是支持 ChatGPT 和许多其他人工智能应用程序的大语言模型。
OpenAI 的成功不仅在于其技术实力,还在于其对市场的敏锐洞察力和创新能力。OpenAI 不断推出新的产品和服务,满足用户的需求,同时也引领了人工智能领域的发展方向。
在人工智能领域,OpenAI 面临着激烈的竞争。Anthropic、xAI 等后起之秀的追赶,以及谷歌公司和元宇宙平台公司等科技巨头的竞争,都给 OpenAI 带来了巨大的压力。然而,OpenAI 凭借其强大的技术实力和创新能力,仍然在市场上占据着重要的地位。
OpenAI 在谈判中曾要求投资者不要支持 Anthropic、xAI 等竞争对手,希望与投资者们达成独家协议,以阻止其他公司挑战 OpenAI 在生成式人工智能领域的早期领先地位。这一做法虽然显示了 OpenAI 的竞争意识,但也暴露了其内心的恐慌。面对激烈的市场竞争,OpenAI 需要不断创新和提高自身的竞争力,才能保持其龙头地位。
总的来说,OpenAI 作为行业领军者,其龙头地位及影响力在人工智能领域不可忽视。通过不断的技术创新和研发投入,OpenAI 将继续引领人工智能领域的发展方向,为用户提供更先进的人工智能产品和服务。
国内新媒体版权运营龙头,音视频整体解决方案提供商。捷成股份作为行业龙头企业,在新媒体版权运营方面具有深厚的积累和强大的实力。其不仅拥有丰富的版权资源,还能为客户提供高质量的音视频整体解决方案,涵盖了从内容制作到分发的各个环节。布局华为盘古大模型,在 OpenAI 相关领域也有一定发展。捷成股份高度关注 AI 技术的研发和应用,积极探索文生视频等新兴技术。公司研发的 AIGC 一键成片系统,基于多模态大模型能力,可根据提示词自动生成视频脚本、广告词、分镜脚本等,并根据脚本自动摘取素材生成完整视频,极大提升了视频创作者的工作效率和内容生成效果。目前该系统已处于测试阶段,并将于近期正式发布。此外,捷成股份还在 OpenAI 相关领域积极布局,展现出其在人工智能领域的前瞻性和创新能力。以公共关系服务为基础的品牌管理服务企业。蓝色光标作为品牌管理服务企业,以其专业的公共关系服务为基础,为客户提供全方位的品牌管理解决方案。公司在品牌传播、市场推广等方面拥有丰富的经验和卓越的能力。间接参股 OpenAI 新一轮融资,与 Meta 合作,是 AI 细分龙头,在概念上对飚 OpenAI 和 meta。蓝色光标 2022 年 3 月 4 日 3500 万美元参股了 a16z 基金,6 月 13 日再度追投 200 万美元,而 a16z 参投了 OpenAI 最新一轮融资。蓝色光标是 meta 最大的合作伙伴,在 AI 细分领域处于龙头地位。公司在概念上对飚 OpenAI 和 meta,具有强大的想象空间。同时,蓝色光标在全球竞逐 AI 的浪潮之下,发布了 AI² 战略,结合 AI 工具,通过严格的预算管理、供应链管理、资源配置等方式持续优化运营,降本增效开始显示效果。此外,蓝标出海将在境外业务与微软开展基于 OpenAI 技术的产品合作,旗下元宇宙 BlueNeo 携手 Meta 共创首个品牌集合虚拟空间,为品牌定制沉浸式 VR 体验。国内机顶盒龙头企业。创维数字作为国内机顶盒龙头企业,在机顶盒市场占据着重要的地位。其产品质量可靠,技术先进,深受消费者的喜爱。接入 OpenAI,作为全球机顶盒龙头有望受益 AIGC 发展,在 AI 领域与百度合作,与多家头部互联网厂商有合作。10 月 16 日,创维数字股份有限公司在深交所互动易平台表示,公司与华为建立了深厚的长期合作关系,在云电脑、华为云、信创产品、AI 智能方案、车载智能系统等方面都有合作布局,同时也在积极推进智能化应用、工业化软件等领域的合作。此外,创维数字产品海外 C 端的应用,已接入应用 OpenAI 及测试,在微软云 Azure 上公司海外子公司已注册 ChatGPT 商业版及测试。作为全球机顶盒龙头,创维数字有望受益于 AIGC 的发展,在 AI 领域与百度等多家头部互联网厂商的合作,也将为其带来更多的发展机遇。平台型公司,从事社交网络、网络游戏、网络广告等服务。昆仑万维是一家平台型公司,业务涵盖社交网络、网络游戏、网络广告等多个领域。公司在这些领域拥有丰富的经验和强大的实力,为用户提供了优质的服务。在 AI 视频领域表现突出。昆仑万维在 AI 视频领域表现突出,推出了创新的 SkyReels 平台,这是全球首个集成 AI 视频生成和 3D 引擎的系统。SkyReels 能将脚本创作、角色定制、故事板设计与电影合成无缝集成,提供一站式解决方案,使创作者能够轻松打造出高质量的 AI 视频作品。平台支持从史诗奇幻到现代家庭喜剧等各种题材,能够将创作者的初步想法转化为完整的视觉故事。它结合了昆仑科技开发的多个大型语言模型,包括用于剧本编写的 SkyScript、故事板生成的 StoryboardGen 和 3D 内容创作的 Sky3DGen,以及独特的 WorldEngine 平台,后者融合了 AI 3D 引擎与视频生成模型,提升了创作的灵活性与深度。领先的产业互联网服务提供商。彩讯股份作为领先的产业互联网服务提供商,在产业互联网领域拥有丰富的经验和强大的实力。公司为客户提供协同办公、智慧渠道、云和大数据三大产品线等服务,助力客户实现数字化转型。在 OpenAI 相关产业链中有一定地位。OpenAI 概念题材极速拉升,彩讯股份大涨 11.63%,其他成分股跟涨。彩讯股份重磅推出 “AI 剧本工具” 新功能,结合有米云大数据模型的技术能力,率先接入 OpenAI,将 ChatGPT 技术落地内容电商领域。在 OpenAI 相关产业链中,彩讯股份具有一定的地位,其在 AI 技术的应用和创新方面不断探索,为产业互联网服务带来新的发展机遇。主要业务在海外的互联网营销服务商。易点天下主要业务在海外,作为互联网营销服务商,为客户提供专业的营销解决方案。公司在海外市场拥有广泛的客户资源和丰富的营销经验。在 AI 相关领域有涉足。易点天下在 AI 相关领域有涉足,ChatGPT 在在线广告业务上有很好的应用场景,公司计划将 ChatGPT 的语料输出和广告行业场景做结合,进行二次训练,用于广告投放业务。这显示了公司在 AI 领域的积极探索和创新精神,有望为其业务发展来源:兰板套利