摘要:2025 年开年,DeepSeek 用远低于行业水平的 550 万美元训练成本和屠遍各榜的性能表现,搅动得 AI 大模型圈风云变幻。2 月,Claude 3.7 Sonnet 用数千万美元的训练成本和刷新 SOTA 的扩展思考模式,再次拔高了大模型的能力边界。
2025 年开年,DeepSeek 用远低于行业水平的 550 万美元训练成本和屠遍各榜的性能表现,搅动得 AI 大模型圈风云变幻。2 月,Claude 3.7 Sonnet 用数千万美元的训练成本和刷新 SOTA 的扩展思考模式,再次拔高了大模型的能力边界。
一轮又一轮的更新和发布,把 AI 大模型性能不断“卷”向新的高度。但与两年前 ChatGPT 问世时的盛况相比,新模型们总是缺少一些“惊艳”的感觉。
或许是因为,这两年我们见证了太多“最强大模型”的发布,从拼参数到拼上下文,从拼多模态到拼成本,似乎陷入了各大模型轮番屠榜的无限流中。
部署大模型的企业对此的感知或许更为深刻。前脚刚配置好硬件,选好大模型做完训练和微调,终于集成到企业系统中,后脚就发现又有更具性价比、更适合自身业务场景的大模型问世。这种快速迭代的技术环境,让企业在 AI 应用落地过程中面临巨大的不确定性。
在大模型层出不穷的当下,企业真正需要的,其实是多样化的模型选择和灵活的部署方式。
DeepSeek 火了,“带得动”AI 应用落地吗?
DeepSeek 的发布在全球范围内引发了连锁反应。过往,大家对大模型的固有认知是“高投入才能有高回报”。但 DeepSeek 走出了一条不一样的路——用 GPT-4 十分之一的训练成本,打出了与之相当的性能表现。
更重要的是,DeepSeek 选择了开源。开源意味着技术的透明和共享,也意味着全球 AI 行业都可以沿着 DeepSeek 工程优化的路径,来降低模型的训练和推理成本。
在 DeepSeek 的推动下,全球掀起了低成本 AI 模型“狂欢”。与此同时,行业的关注点也在发生转变。
过去,企业在选择 AI 模型时,往往会优先关注模型的性能,如准确率、推理速度等技术参数。如今,随着以 DeepSeek 为代表的低成本 AI 模型光速出圈,AI 应用迎来“安卓”时刻,企业更关心的是如何快速将新模型应用到业务中,并产生商业价值。
这不是只属于 DeepSeek 一家公司的狂欢,因此,围绕 DeepSeek-R1 的部署和集成,成了国内企业开年最重要的课题。
云厂商对此的反应十分迅速,且步调统一。1 月 30 日,亚马逊云科技、微软 Azure 纷纷宣布接入 DeepSeek-R1 模型。2 月初,华为、腾讯、阿里等国内云厂商也开始陆续宣布接入。
一个有趣的现象是,云厂商们几乎都有自研大模型,为什么还要接入第三方大模型?
亚马逊 CEO Andy Jassy 曾在一场会议中给出了答案:“我们秉持一种信念,即几乎所有大型生成式人工智能应用都会使用多种模型类型,而且不同客户会针对不同类型的工作负载使用不同模型,那么你就要尽可能多地提供前沿模型让客户选择。我们正通过 Amazon Bedrock 这类服务来实现。这就是为什么我们迅速行动,确保 DeepSeek 模型能在 Amazon Bedrock 和 SageMaker 平台上使用。”
在这些接入 DeepSeek-R1 模型的云厂商中,亚马逊云科技的动作迅速且坚决,甚至在 3 月 11 日,上线了完全托管的 DeepSeek-R1 ——企业不需要管理任何基础设施,甚至不用担心复杂的设置或运维,以 Serverless 按 token 付费的模式,将其应用于企业级部署。
Andy Jassy 在 LinkedIn 上发文表示:“我们让 DeepSeek-R1 的使用变得更加轻松。该模型现已在 Amazon Bedrock 上以完全托管模式提供——亚马逊云科技是首个将 DeepSeek-R1 作为完全托管服务推出的云服务提供商。用户无需进行任何配置或维护,即可获得所需的全套安全防护和工具(如 Guardrails、智能体 Agents 和知识库),用于构建高效实用的生成式 AI 应用。”
在大模型时代,各大云厂商都有自己的打法。亚马逊云科技的打法是让新兴和流行的模型立即可供企业使用,这也与其一贯秉持的“Choice Matters”理念高度契合。
比如,在 Anthropic 发布其迄今为止最智能的模型 Claude 3.7 Sonnet 的当天,Amazon Bedrock 就宣布接入该模型,甚至还将其添加到 Q Developer 的模型列表中,开发者可以根据特定任务选择最合适的模型,从而支持更高级的编码工作流程,提升开发效率。
仅在今年 2 月份,Amazon Bedrock 就“上新”了包括 Meta 的 Segment Anything Model(SAM)2.1 视觉分割模型、阿联酋技术创新研究所(TII)的 Falcon3 等在内的多款热门大模型。更早之前,Amazon Bedrock 第一时间上架了 Meta Llama、Stability AI 等热门模型。
当然,模型要想真正落地应用并产生商业价值,还需要进行适配和开发。这也是为什么亚马逊云科技在接入 DeepSeek 后的两个月内,仍不断为客户提供完整工具链的原因。这种端到端的工具链,是 Amazon Bedrock 的强项,也是将“Choice Matters”这个理念落地的真正成本。
除了模型选择,Amazon Bedrock 还在成本、延迟和准确率优化,利用私有数据定制,安全负责任的审查,多 Agents 协作解决复杂任务这四个方面,为企业提供了多种工具,比如:
在成本、延迟和准确率优化方面,Amazon Bedrock 支持提示词缓存、智能提示词路由:在过去,开发人员往往需要花费大量时间评估模型是否符合自身需求,尤其是成本和延迟等因素需要非常精细的平衡。Amazon Bedrock 能够对多次 API 调用中常用提示词进行缓存,成本降低 90%,特定模型效率提升 85%。此外,Amazon Bedrock 还能将提示词路由,调用设定好的最适合模型以获得最佳性价比,在无损质量、不影响准确性的情况下,成本降低 30%。在利用私有数据定制方面,Amazon Bedrock 知识库支持结构化数据检索、GraphRAG: 要想实现更贴合业务需求的 AI 应用,企业往往需要利用自己的数据训练或微调模型。为了帮助企业充分利用私有数据,Amazon Bedrock 知识库自动化了完整的 RAG 工作流程,囊括了编写自定义代码、集成数据源和管理查询。此外,Amazon Bedrock 知识库还支持 GraphRAG 自动生成知识图谱,并连接各种数据源之间的关系。Amazon Bedrock Data Automation 还能自动将非结构化的多模态内容转换为结构化数据,并自动提取、转换和处理所有的多模态内容,实现大规模处理。在安全负责任的审查方面,Amazon Bedrock Guardrails 全面护航应用安全:在企业最关心的大模型落地应用安全问题方面,Amazon Bedrock Guardrails 可以根据不同应用的要求和负责任的人工智能政策制定保障措施,能够阻止高达 85% 的有害内容。企业级 AI 在部署和应用过程中,经常头疼的还有老生常谈的大模型幻觉问题。在 Vectara HHEMAI 幻觉测试中,即便是 DeepSeek-R1,也出现了高达 14.3% 的幻觉率。Amazon Bedrock Guardrails 引入了自动化推理检查功能,通过运用数学逻辑方法验证生成内容的准确性。此外,Guardrails 还能通过解析和验证生成结果的合理性,生成可审计的输出和清晰的推理过程,从而提升模型的透明度。在多 Agents 协作解决复杂任务方面,Amazon Bedrock 允许开发者构建、部署和编排多个 Agents: 近期,Manus 掀起的 Agent 风暴,在 Amazon Bedrock 上也有相应的解决方案。Amazon Bedrock 此前发布的多 Agents 协作功能,允许开发者构建、部署和编排多个 Agents,协同处理复杂的多步骤任务。多 Agents 协作也为生成式 AI 的落地应用开辟了新的可能性。所以,“货架”只是 Amazon Bedrock 的核心概念之一,在“货品”的消费端, Amazon Bedrock 几乎完成了一个“大模型商超”的功能搭建。许多厂商将 2025 视为 AI 应用落地的元年,这一判断的前提便是:由低成本 AI 模型引发的技术潮流,可以在 Amazon Bedrock 这一类大模型平台的配合下,落地成真正的“AI 狂欢”。
因此,模型的性能和服务稳定性也是决定其能否成功落地应用的关键因素。例如,API 访问的响应时间、TPS 以及长上下文窗口的支持能力,都会直接影响用户体验和业务效率。这也是为什么,在不同云平台上部署同一款模型时,体验会存在显著差异。
过去一年,在 Meta、微软、亚马逊和 Alphabet 四大科技巨头中,亚马逊在 AI 领域的投资手笔最大,在 AI 基础设施投方面的支出持续超过其他竞争对手。Andy Jassy 提到,亚马逊第四季度 263 亿美元资本支出的绝大部分,用于亚马逊云科技的 AI 投资。预计 2025 年,亚马逊将在 AI 领域支出 1000 亿美元。
AI 基础设施的投入直接决定了模型的性能和服务的稳定性。在 Amazon Bedrock 上,DeepSeek-R1 的首 Token 响应时间通过全托管服务优化实现了稳定控制在 2 秒以内,通过无服务器架构和预置优化配置方案,结合 DeepSeek-R1 的强化学习技术(如 GPRO 方法),显著提升推理效率,确保首 Token 生成速度的一致性。
当下,在实际应用中,越来越多的企业开始探索多模型并行的策略。根据投行 Jefferies 的分析,在多数企业中,只有 3% 的企业只使用单一语言模型,34% 的企业使用两个,41% 的企业使用三个,22% 的企业使用四个或更多。
DeepSeeK 开启的低成本 AI 模型狂欢,只是 AI 应用落地的前置条件。随着未来更多低成本、高性能模型不断涌现,企业真正需要的是多样化模型选择和灵活的部署方式。正如 Andy Jassy 所言,没有任何单一工具能够“一统天下”。当开发者被赋予模型选择的权利时,他们对模型的使用就是多样的。
数据才是真正的“底牌”
当然,作为“大模型货架”,像 Amazon Bedrock 一般的产品,对外实现功能完备,保障模型品类更新及时,仍然只是“第一步”。随着企业对 AI 的应用逐渐进入“深水期”,更多的竞争差异会从数据层面体现出来。
这也是为什么,同样是接入 DeepSeek 落地应用的企业,有的正在享受“技术红利”,有的还在原地踏步。
一方面,低质量的数据根本无法“养活”像 DeepSeek 这样的大模型。比如,某企业在部署 DeepSeek 后,希望通过 AI 模型优化其推荐系统,但由于训练数据中包含了大量噪声或错误信息,模型生成的推荐结果准确性大幅下降。
另一方面,由于数据通常被分散在多个工具和系统中,企业需要重复进行数据准备和参数调优等步骤,效率低下。工具的不统一,也使得企业难以及时全面监控和分析数据,无法最大化发挥模型优势。
DeepSeek 只是个开始,为“AI 应用落地”吹哨的除了“大模型货架”和端到端的技术方案,还需要数据基础设施的进一步升级。
这几年,无论是亚马逊云科技、微软 Azure 还是谷歌云,都在提升自己的数据处理能力。
以亚马逊云科技为例,其数据底座 S3 不仅支持海量数据的存储和管理,还通过引入 S3 Intelligent-Tiering 和 S3 Glacier Instant Retrieval 等功能,降低数据存储成本,为 AI 模型的训练和实时数据分析提供基础。
为了简化数据集成和 ETL 流程,亚马逊云科技推出了 Glue,不仅支持数据的自动化集成,还通过引入 Glue DataBrew 和 Glue Elastic Views 等功能,进一步简化了数据管道的构建和管理。这种端到端的数据集成能力,使得企业能够更高效地整合多源数据,为 AI 模型的训练和优化提供高质量的数据支持。
在 AI 开发领域,亚马逊云科技在 2024 年 re:Invent 上宣布 SageMaker 再度进化,为所有数据分析和 AI 提供一站式服务。下一代 SageMaker 几乎涵盖包括数据探索、准备与集成、大数据处理、快速 SQL 分析、机器学习模型开发与训练,以及生成式 AI 应用程序开发所需要的全部组件。
过往企业在开发 AI 应用时,通常使用多种工具来完成不同的任务,例如使用 comet 跟踪和管理训练实验,使用 deepchecks 评估模型质量,使用 fiddler 监控生产环境中的模型性能,以及使用 LAKERA 保护 AI 系统免受安全威胁。这些工具往往分散在不同的平台中,开发者需要在它们间频繁切换,这种重复劳动既降低了工作效率,又增加了出错的风险。下一代 SageMaker 通过集成 comet、deepchecks、fiddler 和 LAKERA 等 AI 应用程序,支持从实验跟踪、模型评估到性能监控和安全防护的全流程管理。
至于最基本的数据质量问题,为了帮助企业构建高质量的数据管道,下一代 SageMaker 提供了自动化数据清洗工具,能够识别并修复数据中的噪声、缺失值和异常值。同时还集成了实时数据质量监控功能,能够动态检测数据流中的质量问题,提供即时反馈。
如果说 Amazon Bedrock 解决的是大模型落地的效率问题,那么下一代 SageMaker 解决的就是资源利用和数据分析等大模型落地的速度问题。而这些,既是企业通过 AI 实现商业价值的关键驱动力,也是云厂商在 AI 时代的底牌。
来源:新浪财经