摘要:当地时间 12 月 3 日,亚马逊云科技(AWS,Amazon Web Services)年度 re:Invent 大会正式发布了其 Nova 系列 AI 模型,标志着这家科技巨头进军前沿基础大模型领域。
当地时间 12 月 3 日,亚马逊云科技(AWS,Amazon Web Services)年度 re:Invent 大会正式发布了其 Nova 系列 AI 模型,标志着这家科技巨头进军前沿基础大模型领域。
亚马逊 CEO 安迪·贾西(Andy Jassy)亲自登台宣布了这一重大消息,以此展示其在 AI 领域的雄心壮志。
“我们一直在持续开发自己的前沿模型,这些模型在过去的四到五个月里取得了巨大进展。
如果我们能从中获得价值,那么我坚信你们也能从中受益。”贾西的这番话展示了亚马逊对 Nova 系列模型的信心。
至此,在云服务 + 自研 AI 大模型的战场,微软、谷歌和亚马逊形成了“三足鼎立”之势。
我们将看到微软 GPT+Azure、谷歌 Gemini+Google Cloud 和亚马逊Nova+AWS 三者之间的正面对抗。
作为一个全新的多模态生成式 AI 模型家族,Nova 系列包含了六个模型,涵盖了文本、图像和视频生成等多个领域。
其中四个模型专注于文本处理,分别是 Micro、Lite、Pro 和 Premier,另外两个则是面向创意内容生成的 Canvas 和 Reel 模型。
与同为科技巨头的谷歌和 Meta 相比,亚马逊的自研大模型显然姗姗来迟(更不用说跟 OpenAI 和 Anthropic 相比了),但此次一口气公布了六个模型,展示出后发优势,意在通过一站式解决方案来满足不同客户的多样化需求。
在文本处理领域,亚马逊为 Nova 系列制定了清晰的梯度布局。
作为基础款的 Micro 模型专注于纯文本处理,以超低延迟为特点,能够快速完成文本总结、翻译等基础任务。
Lite 模型则进一步扩展了功能,不仅能处理文本,还可以理解图像和视频输入,适合进行文档分析和客户互动等场景。
Pro 模型则在多模态处理能力的基础上,实现了“精确度、速度和成本的最佳平衡”,亚马逊将其定义为“全能选手”。
而 Premier 模型是 Nova 系列的旗舰版本,计划于 2025 年初推出,将专注于处理复杂推理任务,并能够作为“教师模型”来训练定制化模型。
图 | Nova Pro 与其他竞品的性能对比(来源:亚马逊)
根据亚马逊给出的数据,Nova 系列模型的性能与直接竞品几乎是伯仲之间,互有胜负。
其中,Nova Pro 和 Claude 3.5 之间的差距最为明显,与 GPT、Gemini 的整体表现更加接近。
在技术规格方面,Micro 模型拥有 12.8 万个 token 的上下文窗口,可处理约 10 万字的内容。
而 Lite 和 Pro 型号则支持 30 万个 token,约等于 22.5 万字、1.5 万行代码或 30 分钟的视频内容。
亚马逊还对媒体表示,到 2025 年初,部分 Nova 模型的上下文窗口将扩展到超过 200 万个 token,为处理更加复杂的任务提供支持。
在创意内容生成方面,Nova Canvas 和 Nova Reel 的加入让这个产品家族更加完整。
Canvas 模型能够通过文本提示生成并编辑专业级别的图像,用户可以精确控制生成图像的配色方案和布局。
而 Reel 模型则提供了视频生成功能,可以创建长达 6 秒的视频内容,还支持镜头平移、360 度旋转和变焦等高级摄影技巧。
据亚马逊内部测试显示,在视频质量和一致性方面,Reel 模型的表现都优于市面上的竞品。
例如,在与竞争对手 Runway 的 Gen-3 Alpha 模型进行的 A/B 测试中,Reel 生成的视频获胜率达到了 61.4%,在视频一致性方面更是高达 71.6%。
此外,Nova 系列模型支持超过 200 种语言,并针对英语、德语、法语、中文等 15 种语言进行了优化。
图 | Nova 系列模型的部分信息(来源:亚马逊)
亚马逊在官方博客中强调,Nova 系列模型十分重视安全性和负责任的 AI 应用。它在所有 Nova 模型中都植入了内容审核和水印等安全措施,以防止有害内容的传播。
此外,AWS 还推出了 AI 服务卡(Service Cards),以提供关于使用案例、限制和负责任的 AI 实践等信息。
不过,几乎所有公司都会在模型发布时强调这一点,但它们无一例外都“翻车”了。所以,Nova 模型的实际表现究竟如何,还需要广大网友亲测后才能得出结论。
亚马逊高级副总裁罗希特·普拉萨德(Rohit Prasad)特别指出,“Nova 系列的设计充分考虑到了应用程序开发者面临的常见挑战,因此在延迟、成本效益和信息基础等方面都有显著改进。”
此外,亚马逊已经规划了 Nova 系列的发展蓝图。2025 年,他们计划推出语音到语音的模型,该产品不仅能够理解语气和节奏等非语言线索,还能生成自然的、类似人类的声音。
亚马逊还计划于 2025 年中旬推出“任意到任意”模型,旨在能够实现文本、语音、图像和视频之间的无缝转换,这被该公司 CEO 贾西称为“前沿模型的未来发展方向”。
对于企业用户来说,Nova 系列最具吸引力的特点之一,是其与 AWS 基础设施的无缝集成,这也是亚马逊自研大模型的底气。
通过 Amazon Bedrock 平台,企业可以直接对这些模型进行微调和知识蒸馏,使其更好地适应特定的业务需求。
特别是在检索增强生成方面,Nova 系列表现出色,能够基于组织的特定数据来提升输出的可靠性。
亚马逊公开表示,有企业在广告领域使用 Nova 工具后,实现了广告产品数量增加 5 倍、每个产品图片数量翻倍的显著成效,以此证明 Nova 系列在商业应用中的价值。
随着 Nova 系列的推出,亚马逊正式加入了生成式 AI 的角力赛场,而这场云服务 + AI 大模型的“三足鼎立”才刚刚拉开帷幕。
除了他们,赛场上还有 Meta、OpenAI 和 Anthropic 等不可小觑的对手。鹿死谁手,犹未可知。
参考资料:
运营/排版:何晨龙
来源:DeepTech深科技