34；ML管道为何要‘刻意破坏’&34；

摘要：文章介绍了机器学习系统静默失效的风险，以及混沌工程在AI领域的应用。混沌工程通过主动注入故障来测试系统弹性，弥补了传统监控方法的不足。文章详细分析了数据摄取、特征工程、模型训练、部署、服务及监控等环节常见的故障模式，并强调了混沌工程在构建可靠AI系统中的重要性

文章介绍了机器学习系统静默失效的风险，以及混沌工程在AI领域的应用。混沌工程通过主动注入故障来测试系统弹性，弥补了传统监控方法的不足。文章详细分析了数据摄取、特征工程、模型训练、部署、服务及监控等环节常见的故障模式，并强调了混沌工程在构建可靠AI系统中的重要性。

译自：Why You Should Break Your ML Pipelines on Purpose

作者：Tinega Onchari

这是两篇文章中的第一篇。

当你的机器学习系统悄无声息地损坏，却无人察觉时，会发生什么？与会发出响亮而明显崩溃声的传统系统不同，人工智能系统往往会静默地、微妙地失效。它们不总是抛出错误、记录堆栈跟踪或触发警报。相反，它们会逐渐退化——悄无声息地、随着时间的推移——直到造成损害。

这种静默的失败可能是毁灭性的。

想象一下，一个推荐引擎由于过时的特征输入而开始偏离，在接下来的几周里持续提供不相关的建议。或者一个图像分类模型接收到损坏的再训练数据，并开始错误地对高风险物品进行分类，但仍然提供预测而不发出任何警告。或者更糟的是：一个客户支持聊天机器人由于模型版本不匹配而返回越来越不连贯的响应，直到用户信任丧失才有人注意到。

这些不是假设性的场景；它们在人工智能/机器学习（ML）系统的生命周期中很常见。

AI 管道本质上是脆弱的：

它们依赖于可能在未通知的情况下更改结构的向上游数据源。它们依赖于缺乏内置容错能力的分布式、异步工作流。它们不断演进（通过再训练、模型更新、特征工程），但通常缺乏强大的回归保护措施。

我们用于监控传统软件的工具——CPU 指标、请求延迟、错误日志——无法捕捉到这些静默的退化。一个管道在表面上可能看起来是健康的，但却在底层悄无声息地产生有害、不准确的结果。

这时混沌工程就派上用场了。

混沌工程是由 Netflix 推而广之的，它涉及有意地向系统中注入故障，以观察其在压力下的行为。目标不是造成故障，而是建立对系统承受故障能力的信心。

到目前为止，混沌工程已被广泛应用于基础设施——网络、容器、API——但它的下一个前沿是人工智能/机器学习系统。

混沌工程传统上是作为一种测试分布式系统弹性的方法而出现的。想想 Netflix 使用 Chaos Monkey 随机关闭服务器，以确保服务能够经受住现实世界的故障。开发的工具和实践侧重于可观察的、低级别的基础设施故障：

模拟网络分区或高延迟 以测试微服务的超时。杀死 Kubernetes pod 或容器 以验证服务的故障转移机制。触发资源争用（如 CPU 节流）以衡量自动伸缩器如何响应。这些都是至关重要的测试——但它们主要关注基础设施层面的系统可用性和容错能力。

在人工智能/机器学习管道中，故障很少是二元的。当某物损坏时，系统不一定会停止响应或抛出异常。相反，系统会继续工作，但不是按照你认为的方式工作。

这些系统以微妙、隐藏且通常是静默的方式退化：

过时的数据集：再训练管道可能会提取一个过时或标记错误的的数据集，导致模型在测试数据上看起来正常，但在生产环境中却极其不准确。倾斜的输入特征：当实时推理数据与训练分布发生偏差时，就会发生特征漂移。你的模型仍在运行，但随着时间的推移，预测会变得越来越不可靠。外部 API 依赖性失败：许多现代机器学习系统依赖外部 API 进行丰富（天气、地理位置、语言翻译）。如果一个 API 静默地返回部分或格式错误的**数据，你的特征工程逻辑可能会在下游中断，而不会触发警报。模型版本不匹配：新版本模型部署时，下游客户端或配置并未更新。模型提供预测，但消费者因期望不同的输出模式而错误地解释它们。数据质量回归：想象一下，你的源系统开始为关键字段记录“null”。没有基础设施故障，但你的机器学习模型现在正在处理垃圾输入。传统监控无法发现它们。 Prometheus 无法捕捉到错误标记的训练数据集。正常运行时间检查不会标记特征倾斜。没有针对机器学习的目标可观测性，这些问题就会被忽略。它们静默退化。 人工智能系统可以在停止有用很长时间后继续返回预测。准确性缓慢下降，业务指标退化，但没有明确的根本原因。它们破坏信任，而不仅仅是功能。 一旦用户对人工智能系统的决策失去信心（由于糟糕的推荐、错误的分类或不一致的聊天机器人行为），就很难赢回这种信任。

因为在暂存环境中测试人工智能故障场景通常并非易事：

你并不总是能复制真实的特征漂移。在沙盒环境中模拟上游数据中断是困难的。大多数数据科学家在测试模型时都假设世界按照预期运行。

通过向你的机器学习管道注入有针对性的混沌，你可以建立信心，确信你的系统能够在不可避免的不确定性面前检测、处理或优雅地失败。这包括：

测试你的数据验证层是否能捕获异常验证模型服务中的回退机制在嘈杂的条件下衡量漂移检测器的行为观察提供过时模型对业务的影响

人工智能的弹性不仅仅关乎正常运行时间；它关乎你预测的完整性。这就是为什么机器学习中的混沌工程不再是可选项。它是部署生产级、可信赖智能的关键部分。

机器学习管道是复杂的多阶段系统，由数据收集、特征工程、模型训练、验证、部署和监控组成。与传统软件不同，这些管道通常会静默失败——没有异常、警报或明显的崩溃。

它们不是宕机，而是悄无声息地、隐蔽地出错。

让我们分解一下最常见的故障模式、它们的样子以及如何使用混沌工程原理有意地测试它们。

任何机器学习模型的优劣都取决于其训练和喂入的数据。数据摄取通常是管道中第一个也是最脆弱的步骤。如果它失败了——无论是静默地还是灾难性地——你的管道就会变得毫无用处，即使它看起来还在运行。

可能出错的地方：

API 响应延迟或不完整。上游系统静默地删除字段或更改模式。文件编码、时区或格式在未通知的情况下发生变化。

需要测试的内容：