AI推动KubeCon NA 2025平台工程复兴浪潮

B站影视 日本电影 2025-11-17 17:24 1

摘要:正如预期,在本周于亚特兰大举办的KubeCon/CloudNativeCon北美2025大会上,部分讨论感觉有点像一个互助小组。我们都在努力摆脱炒作,来应对人工智能为云原生开发社区带来的风险和机遇。

正如预期,在本周于亚特兰大举办的KubeCon/CloudNativeCon北美2025大会上,部分讨论感觉有点像一个互助小组。我们都在努力摆脱炒作,来应对人工智能为云原生开发社区带来的风险和机遇。

然而,这里也有一股积极的平台工程复兴暗流,因为我们可以假设大多数开发人员和运维人员已经在使用一些AI赋能的工具来交付某种形式的AI驱动应用功能。

为云原生开发人员配备在可扩展和弹性基础设施(包括Kubernetes及其周围成熟和新兴项目和供应商的生态系统)上使用AI构建所需的一切,新的理想实践是什么?

"云原生和AI原生开发正在融合,我们现在真的处于一个令人难以置信的地方,"主办云原生计算基金会的首席技术官Chris Aniszczyk在开幕主题演讲中说道。"我们如何利用Kubernetes提供的所有功能,如自动扩缩容,并将其应用于AI训练、推理和智能体,以进一步发展?"

此次活动特别值得注意的是CNCF推出的Kubernetes AI一致性认证计划,该计划为使AI工作负载在Kubernetes上可预测地部署设定了开放标准,使它们能够在不同基础设施类型之间实现互操作性和可移植性。

为了解决消耗和成本问题,新的动态资源分配功能优化了AI工作负载在图形处理单元、张量处理单元和其他硬件(包括大型机)上的部署性能。是的,AI终于成为负责任的云原生公民。

平台将改变,但平台工程实践在增长

在我2018年在西雅图参加的第一次KubeCon上,我惊叹于围绕Kubernetes项目形成的数十个新兴工具。到现在,所有这些项目都应该已经毕业,或者可能已经被归档。与今天令人眼花缭乱的包含数百个项目的CNCF景观图表相比,那时要简单得多。

2025年1月的"DeepSeek时刻"在计算历史上只是一个小插曲,但当中国研究人员产生了一个可靠的开源大语言模型时,很明显尽管在商业AI解决方案上有无限的资本投资,永远不会有一个完美的模型来统治所有模型。开源社区可以并且将为生成式AI和智能体AI开发构建可比较的平台。

"我认为这是成熟的标志,即使你将云原生开发与当前的AI炒作混合在一起,组织实际上正在意识到开发人员仍然是需要平台作为产品的内部客户。你不能只是说'继续做'并递给他们一盒工具,"Syntasso Ltd.市场营销主管Daniel Bryant说道,他在展会上分发了一份方便的O'Reilly平台产品化指南。

平台工程实验室联合创始人兼首席执行官Pavlo Baron说,在第一天,当开发人员编写代码并进行更改时,他们处于抽象级别。"他们需要基础设施的具体表示,但他们不想了解网络和数据库的任何信息,"他说。"但在第二天,那就是生活开始的地方。有时运维只需要进入AWS控制台,快速更改,不需要关心所有流程。重要的是专注。你需要在平台中只看到你需要的内容,因为有太多噪音和太多信号。"

在活动中,他们推出了开源IaC平台Formae,它可以发现和统一扩展环境中所有基础设施即代码的更改,作为抽象的、有状态的元素,这样开发人员可以声明性地在基础设施之上构建,运维人员可以在不接触Terraform代码的情况下进行补丁和更新。

事实证明,参与开源创新是招聘平台工程师时备受追求的工作经验,即使这种贡献的直接价值影响在雇主的资产负债表上并不明显。

"我们不断评估开源目录中供我们使用的内容,当有意义时,我们会为我们修改的内容回馈开源,"一家主要社交网络的高级平台工程师在圆桌讨论中说道。"我们发现,当我们雇用为Kubernetes和相关项目做贡献的人时,我们可以让他们进来并在第一天就具有生产力,而不是三到六个月的加速时间。"

网络和基础设施层的优化

"我们使用Kubernetes已经10年了,基础开始破裂,我们必须真正重新思考系统的每一层,直到最底层,"Edera Inc.的创始人兼首席技术官Alex Zenla说道,该公司为精简容器环境提供强化运行时。"人们对所有工具和他们必须安装以使Kubernetes可用的各种东西有点厌倦了,而它应该开箱即用并实际运行。"

例如,Zenla提到Kubernetes没有默认的网络解决方案。不同的团队可以决定使用Celium或Calico,但当他们从领先的云提供商那里获得发行版时,它可能包含自定义容器定义、网络、权限、可观察性和pod扩展实现,其中一些可能依赖于特定供应商。

最初的CNI网络规范现在也有10年历史了,社区不断找到简化网络头痛的新方法。例如,Tigera Inc.推出了一个新的Calico AI助手,为大型集群中的网络和策略问题故障排除提供自然语言查询功能,以及在其打包产品中捆绑可观察性工具和用于入口的强化操作器和Istio环境服务网格。

Floxdev Inc.展示了其独特的基于Nix的"非容器化"Flox环境镜像,可以接受CI构建并在裸机上的Kubernetes内有状态运行,具有零字节容器开销,可实现即时启动和更少的漏洞把手。

Golem(Ziverge Inc.)在那里展示了一个用于智能体的智能体运行时编排平台,可以审计操作并在单个节点内为数万个离散识别的AI智能体维护故障转移状态(实际上是通过WebAssembly或WASM)。因此,如果服务器崩溃或API响应超时,智能体可以从中断的地方继续。

让AI辅助开发环境更安全

根据最新的云原生调查,软件供应链攻击呈上升趋势,报告的CVE数量同比增长超过16%。幸运的是,OpenSSF工作组已经收集了技术审计基金和来自领先公司的贡献者,他们正在审计和发现问题,特别是在进入实时应用程序的Kubernetes许多非核心组件中。

随着通过AI编码辅助在系统中移动的代码量,速度在没有适当安全防护措施的情况下正在杀死发布。我们甚至看到了AI幻觉库的恶意"草率抢占"和社区必须解决的包中的振动编码漏洞的新形式。

"控制进入我们软件的成分真的很难,"Cloudsmith Ltd.首席执行官Glenn Weinstein说道。"每个构建的90%以上都是别人的软件——开源库、来自公共存储库的Docker容器、大语言模型数据集和操作系统依赖项。这是一个完全的依赖关系狂野西部,DockerHub、PyPi、npmJS都充满了正在植入漏洞的坏人。"

该供应商现在提供AI驱动的软件即服务工件策展和管理服务,如向开发人员分发云原生包的内容分发网络和用于智能体的MCP服务器,扫描注册表的漏洞或许可证问题,然后在它们被纳入软件之前代理、缓存和提供源包注册表。

Kusari Inc.在那里提供基于其广泛采用的guac开源安全工具的SaaS平台,用于在每个开发人员拉取请求的git工作流程中插入依赖关系和漏洞检查,包括一个新的自主AI代码审查器,自动扫描代码的错误、安全风险甚至许可证风险,以抵御无处不在的专利流氓。

AuthZed Inc.在其开源SpiceDB中构建人与人、人与数据、数据与数据之间的关系图,这样企业可以在各种系统中做出更明智的授权决策,而无需为策略编写新的计算机程序。当然,还有一个MCP服务器,这样编码智能体可以使用该服务。

通过AI SRE改进可观察性工作流程

尽管我们努力避免Gartner分类,但它创造了一个名为"AI SRE"的新产品类别,用于站点可靠性工程。它包括可以检测、调查和修复生产问题(如故障配置和失控云成本)的AI辅助系统。

ControlTheory Inc.最近推出了其开源Gonzo终端用户界面,可以监控和快速浏览来自Kubernetes集群和其他源的实时日志,以帮助直接从命令行排除实时问题。当然,如果你想进一步过滤和标记问题,其AI驱动的Dstl8产品可以显示趋势分析并协助SRE调查。

Komodor Inc.刚刚宣布的"Klaudia"智能体提供了一个交互式调查聊天界面和一个自动修复过程,甚至可以对错误进行"自主自愈",这样人类SRE可以选择自动解决环境中某些经常遇到的问题和越界策略错误,同时优化pod和节点使用以进行成本控制和利用率目标。

通过AI深入了解关键运行时问题仍然需要团队以新的方式左移智能体测试——这是我最近报道的主题。

"人们发现生成代码是多么容易,并使用AI生成测试,他们忘记代码仍然有错误,就像人类代码一样,"Testkube的创始人兼首席执行官Ole Lensmar说道,这是一个Kubernetes原生持续测试平台,最近添加了MCP服务器和启动多智能体、多区域分布式测试套件的能力。"测试是否相关?它们是有毒还是无毒?它们是否切题,如果底层模型改变,测试结果如何偏斜?"

Intellyx观点

令人惊讶的是,亚特兰大的天气开始时比以前在底特律和芝加哥等地举办的异常温暖十一月的KubeCon要寒冷得多。然而,云原生社区温暖的协作氛围很快消除了对Kubernetes生态系统未来的任何担忧。

如果我能从这次会议中得到一件事,那就是这个现在已有10年历史的云原生社区将会很好,并继续创新新方法来保持领先于AI开发的压力,以及接下来可能出现的任何东西。

在Kubernetes之前的微服务、自动化和应用程序编程接口的所有优点,以及此后不断扩大的支持项目和技术河流,将继续为未来的应用程序提供巨大的可扩展性和弹性——无论AI是否在标签上,还是在表面之下。

Jason English是Intellyx的首席分析师兼首席营销官。他为SiliconANGLE撰写了这篇文章。在撰写时,这里提到的公司都不是Intellyx的客户。没有使用AI生成此内容。CNCF承担了分析师参加活动的费用,这是标准的行业惯例。

Q&A

Q1:CNCF推出的Kubernetes AI一致性认证计划是什么?

A:这是云原生计算基金会推出的认证计划,为使AI工作负载在Kubernetes上可预测地部署设定了开放标准,使它们能够在不同基础设施类型之间实现互操作性和可移植性。

Q2:动态资源分配功能如何优化AI工作负载?

A:动态资源分配功能可以优化AI工作负载在图形处理单元、张量处理单元和其他硬件(包括大型机)上的部署性能,帮助解决消耗和成本问题,使AI成为负责任的云原生公民。

Q3:AI SRE是什么概念?

A:AI SRE是Gartner创造的新产品类别,指的是站点可靠性工程中的AI辅助系统,这些系统可以检测、调查和修复生产问题,如故障配置和失控的云成本,甚至能够进行自主自愈。

来源:至顶网一点号

相关推荐