海管家通过Agentic技术颠覆传统

摘要：国际物流是一个支撑全球贸易运转的30万亿美元市场，正站在一个深刻变革的十字路口。令人震撼的是：一个集装箱从上海到洛杉矶，海上运输仅需15天，但整个业务节点的流转、相关文档处理却要20天。这个行业30%～40%的成本来自"看不见的办公室劳动"——无数从业者每天重

国际物流是一个支撑全球贸易运转的30万亿美元市场，正站在一个深刻变革的十字路口。令人震撼的是：一个集装箱从上海到洛杉矶，海上运输仅需15天，但整个业务节点的流转、相关文档处理却要20天。这个行业30%～40%的成本来自"看不见的办公室劳动"——无数从业者每天重复着查询、计算、协调、处理异常的工作，成为效率提升的最大瓶颈。

海管家作为中国物流数字化的领军企业，深刻洞察到这一痛点背后的本质：传统工作流引擎的"静态流程"模式已无法适应复杂多变的物流业务需求。我们创新性地提出了WOL-APL-EVAL"动静结合"架构，实现了从固化流程到目标导向的根本性转变。

这不仅仅是技术的升级，更是流程治理理念的革新。当AI具备了在规范框架内自适应规划和执行的能力时，物流行业长期存在的效率与灵活性矛盾终于有了突破性的解决方案。

在10月24-25日北京举办的DACon数智技术大会上，海管家CTO徐红维老师将带来《海管家 Smart ERP 的 Agentic 实践之路》话题演讲，介绍海管家Agentic技术实践话题，在正式演讲之前，我们采访了徐老师，提前分享演讲重点内容。

DataFun：您提到国际物流“30-40%成本来自办公室劳动”，但行业仍依赖Excel等传统工具。在您看来，技术升级的核心阻力是什么？是数据孤岛、流程非标化，还是其他深层原因？

徐红维：技术升级的核心阻力并非单一的数据孤岛或流程非标化，而是现有技术架构与物流行业“动态复杂性”和“目标导向性”的根本性不匹配。

国际物流市场之所以高达30-40%的成本来自“看不见的办公室劳动”，根本原因在于这个行业天然的复杂性、多变性和参与方众多。传统的数字化工具，尤其是Excel，虽然能处理一些简单的数据记录和计算，但它们是“静态”的，无法有效应对物流过程中层出不穷的异常情况、临时的政策调整、实时的市场波动以及多方协作的动态需求。例如，一个简单的“清关延误”就可能涉及海关、报关行、船公司、收货人等多方信息的不一致或处理流程的卡顿。静态的电子表格或固化的工作流引擎很难智能地捕捉到这种细微的变化，并自动进行最优的应对规划。

从业者不得不花费大量时间去手动查询、协调、计算，这正是“办公室劳动”的根源，这种围绕分工的协作是建立在『协商』的基础之上的，是一种知识与信息的传递。长期以来缺乏能够主动适应业务变化、自主规划并执行目标的智能化系统。传统的“人找信息”模式，即需要人工去触发查询和处理，已经无法满足现代物流对效率和灵活性的双重需求。

DataFun：与传统Workflow相比，Agentic Workflow 如何解决“静态流程无法适应动态业务”的致命缺陷？能否以物流中的“异常处理”（如清关延误）为例，说明Agentic的自主决策逻辑？

徐红维：Agentic Workflow 通过将AI能力注入工作流，实现了从“固定步骤执行”到“目标导向的自主规划与执行”的转变，从而解决了静态流程的僵化问题。

传统 Workflow 像是一张预设好的地图，规定了每一步怎么走。一旦遇到地图上没有的路（即业务异常），就容易卡住，需要人工介入。而 Agentic Workflow 则更像是一位经验丰富的向导，他知道最终目的地（业务目标），并且能够根据实时路况（业务动态）自主规划最佳路径。

以“清关延误”为例：

传统 Workflow： 当海关通知清关延误时，系统可能只会触发一个“等待”状态或发送一个通知。后续的操作（如联系报关行查询原因、准备补充文件、通知客户等）都需要人工来触发和执行。Agentic Workflow：目标识别：Agent 首先识别到“清关延误”这个事件，并明确其核心目标是“尽快完成清关并最小化影响”。情境理解：Agent 会分析延误的具体原因（如文件不全、海关抽查等），并结合上下文信息（如货物类型、目的地港口规定）。自主规划：基于对原因和目标的理解，Agent 会自主生成一系列行动计划：如果原因是文件不全，Agent 可能会自动查找相关文件，并指示相关方（如客户或内部操作员）上传缺失文件。如果原因是海关抽查，Agent 可能会主动联系报关行，询问预计的处理时间，并根据信息更新预估的到港时间。Agent还会评估不同应对方案的成本和效率，例如是否需要支付加急费用或联系船公司调整卸货计划。执行与反馈：Agent 会执行规划好的动作，并通过系统（如海管家 Smart ERP）反馈给相关人员，同时持续监控清关进展，必要时调整计划。

DataFun：WOL-APL-EVAL架构中，“动静结合”是核心创新点。在工程层面，如何平衡“顶层流程固化”（WOL层）与“底层动态规划”（APL层）的边界？是否有量化标准？

徐红维：“动静结合”的平衡在于明确职责分工和接口定义，WOL 层负责定义“做什么”（目标、规则、约束），APL 层负责“怎么做”（自主规划与执行）。量化标准体现在WOL 层对 APL 行为的约束和目标设定。

在工程实现上，我们通过清晰的架构设计来平衡这两层：WOL（流程治理层）：这一层扮演着“总指挥”的角色。它定义了整个业务流程的顶层框架、关键节点、合规要求、风险控制点以及高层业务目标。例如，它会规定“所有出口报关必须在离港前48小时完成”，“运输过程中，客户必须知晓货物状态更新”，或者“任何涉及金额超过 X 万的支付，都需要二次人工审批”。WOL 层是相对“静态”和“固化”的，它为整个系统提供了方向和约束。APL（自适应规划层）：这一层则像“执行官”。它接收 WOL 层设定的目标和规则，然后利用 AI Agent 的能力，在这些框架内自主地规划具体的执行路径和动作。例如，当 WOL 设定了“在规定时间内完成订舱”的目标时，APL 中的 Agent 会去分析实时的舱位信息、价格、船期，自主选择最优的承运商和舱位，并完成订舱操作。

工程平衡与量化标准：

接口设计：WOL 层通过定义明确的 API 或消息格式，向 APL 层传递任务指令、目标、约束条件和关键数据。APL 层执行完成后，通过 EVAL 层反馈结果。边界设定：WOL 层定义的是“做什么”和“在什么规则下做”，APL 层负责“怎么做”。例如，WOL 可以规定“必须在 X 天内完成配送”，而 APL 则负责规划具体的配送路线、车辆调度等。量化标准：WOL 层：其“固化”体现在对关键指标的强制要求上，如“合规率必须达到99%”，“关键节点响应时间不超过 Y 小时”。APL 层：其“动态”体现在其规划的效率和效果上，这些效果会通过EVAL层进行衡量，并反哺APL的优化。例如，APL 规划的路线是否比人工规划更省时、更省钱，就是其动态规划能力的量化体现。

DataFun：APL层需实现目标导向的自主规划。在复杂物流场景中，如何训练Agent理解“模糊业务目标”（如“最优路线”）并拆解为可执行步骤？是否依赖领域知识注入？

徐红维：要点一：把“模糊目标”变成可计算的目标函数

在WOL中把SLA、预算、合规红线和权重（时效/成本/可靠性/碳排）参数化为Policy-as-Code。APL据此将“最优路线”等问题转成多目标优化，并明确硬/软约束。

要点二：用领域知识和可执行工具完成落地

注入物流本体与规则（口岸/班期/禁限/费目），通过RAG与规则校验筛选候选方案。结合启发式/约束搜索与模板化Playbook，输出结构化计划 steps{tool, params}，附成本/风险估计并经EVAL门控。

要点三：用『影子自动化』数据训练与风控上线

【利用系统重建真实业务流程】以影子阶段沉淀的“状态-动作-结果”轨迹做SFT+DPO，学会拆解与排序。线上采用小模型路由常规、强模型处理异常；低置信度/高风险强制人审，确保可执行、可审计、可回滚。

DataFun：您提到EVAL层需“持续评估目标完成度与风险”。如何构建可量化的评估指标体系？你们内部是如何来衡量“异常处理成功率”或“风险阈值”？

徐红维：EVAL 层的核心是“效果驱动”，通过建立与业务目标直接挂钩的可量化指标，来衡量 Agent 的实际价值和风险控制能力。

EVAL 层的设计逻辑在于从“流程是否走完”转向“流程是否达成预期效果”。

构建可量化指标体系：衡量 “异常处理成功率”与“风险阈值”：异常处理成功率：定义：一个异常事件被成功解决，且在解决过程中未引入新的重大风险或超出预设成本/时间限制的比例。衡量：我们会记录每一次异常事件的发生、Agent 的应对策略、执行过程中的关键节点（如联系了谁、获取了什么信息、采取了什么行动）、最终的解决结果（是否恢复正常流程、是否产生额外费用、是否延误了多少时间）。成功率 = (成功解决的异常事件数) / (总异常事件数)。风险阈值：定义：在 WOL 层预先设定的、用于衡量业务健康度的关键数值界限。例如，“单票货物的滞港费不得超过500美元”，“客户投诉率不得高于2%”。衡量：EVAL 层持续监控 Agent 执行过程中产生的各项数据，与预设的风险阈值进行比对。当某个指标接近或超过阈值时，系统会触发预警，甚至自动采取风控措施（如暂停 Agent 的某些操作，或通知人工介入）。

DataFun：在Agentic系统落地中，最大的工程挑战是实时决策延迟、多Agent协作冲突，还是意图识别偏差？海管家如何针对性优化？

徐红维：这个问题中提到的三个点的确是我们约到的最核心的卡点问题，这三者都是关键的工程挑战，通过云原生架构、优化的模型部署、精细化的Agent协同机制以及混合智能模式来应对。

这三个挑战确实是 Agentic 系统落地过程中最棘手的工程难题：

1. 实时决策延迟：物流业务对时效性要求极高，Agent 的响应速度直接影响业务效率。

a. 云原生架构（叠加 AI 基础设施）：利用 Kubernetes 等容器编排技术，实现资源的弹性伸缩和高效调度，确保 Agent 服务的高可用和低延迟。

b. 模型优化与部署：选择性能与成本兼顾的模型（如 Claude 3.5 Sonnet），并采用高效的模型推理框架和部署策略（如模型量化、GPU加速），缩短 Agent 的响应时间。

c. 边缘计算与预计算：对于一些可预见的场景，提前进行部分计算或决策，以加速实时响应。

2. 多 Agent 协作冲突：在复杂的物流场景中，可能存在多个 Agent（如订舱 Agent、报关 Agent、财务 Agent）需要协同工作，它们的目标或执行顺序可能存在冲突。

a. Agent 协同框架：我们构建了专门的 Agent 协同框架，通过定义明确的通信协议、任务分配机制和优先级排序，来管理 Agent 间的交互。

b. 冲突检测与解决：引入“协调者 Agent ”或基于规则的仲裁机制，来检测和解决 Agent 间的潜在冲突，确保整体流程的顺畅。

c. 工作流编排：将 Agent 的调用整合到更高级的工作流编排中，确保 Agent 按预设的逻辑顺序执行。

3. 意图识别偏差：LLM 在理解复杂、模糊或带有歧义的业务指令时，可能出现误解，导致 Agent 执行错误的动作。

a. 混合智能模式：结合 LLM 的灵活理解能力和传统规则引擎的精确性。对于关键的、需要高确定性的环节，我们依然会依赖规则引擎来兜底。LLM 负责理解意图，规则引擎负责执行精确的逻辑。

b. 精细化的 Prompt 工程：通过精心设计的 Prompt，引导 LLM 更准确地理解业务指令和上下文。

c. 领域知识增强：如前所述，通过注入丰富的领域知识，提升 LLM 对物流专业术语和业务逻辑的理解深度。

d. 持续的反馈与迭代：通过 EVAL 机制收集 Agent 的行为数据，不断优化模型和 Prompt，减少意图识别偏差。

DataFun：演讲中提到“任务完成率提升42%，错误减少29%”。这些数据来自哪些具体场景的AB测试？例如订舱、报关或运费核算？

徐红维：准确的说针对一个具体的场景的单位时间内任务完成率提升（吞吐量的提升）以及错误率减少，下面拿『报关资料校验（Customs Docs QA）』的场景进行案例说明：

场景切片输入：发票/装箱单/要素表/提单等资料包，客户申报要素与禁限规则。任务：字段抽取与一致性校验、要素缺失提示、编码建议（HS/监管条件）、截关时窗预警、补料话术草稿。影子/助理做了什么文档AI抽取并做约束校验（数值合计、币种税率、品名-要素-编码互斥/依赖）。主数据对齐：企业/港口/商品目录映射；RAG检索监管条件与口岸公告。生成差异清单和补料清单；草拟客户补料与风险说明的邮件/IM卡片。A/B设计与指标准确口径 分流：同一关区与票型（普货/特货）内按客户分层随机分流；保留同岗对照组。观测周期：2–4周基线 + 4–8周实验；剔除重大节假日与异常舱况周。关键指标吞吐量（单位时间完成票数）↑：同人力、同班次口径。一次通过率↑：一次提交即无退单/补料。错误率↓：错码、漏项、金额口径错误，经复核/退单记录判定。往返轮数↓：补料IM/邮件往返次数。预警提前量↑：从首次风险被系统发现到操作员获知的时间差。典型结果区间与解释吞吐量 +35% ~ +55%，一次通过率 +8% ~ +18%，错误率 −20% ~ −35%。原因：模板化“差异清单+补料话术”，减少检索与手工对齐成本；高频错码用规则/词典兜底。常见疑问与边界 HS编码由AI直接定吗？答：不直接定，给候选+证据，最终人审。低置信度时强制标“需核对”。合规风险如何控制？答：WOL硬约束（禁限、证照、目的国规则），越界即阻断，仅输出建议。长尾票据版式多样？答：不确定性报告+降级流程，抽取失败时回退到“字段定位建议+人工标注”。

DataFun：您强调LLM需完成“从理解到推理的跃迁”。在物流场景中，LLM的规划能力是否仍需规则引擎兜底？如何解决专业领域（如国际贸易规则）的推理盲区？

徐红维：LLM 的规划能力在需要高确定性、合规性和精确性的场景下，确实需要规则引擎或知识图谱等作为“兜底”和“增强”。

LLM 在理解自然语言、进行上下文推理方面表现出色，但其“推理”能力并非总是如传统编程或规则引擎那般精确和可预测。

LLM 的规划能力与规则引擎的配合：LLM 的优势：LLM 擅长理解复杂的、非结构化的业务指令，例如“确保货物在下周五前安全送达，同时尽量控制成本”。它能理解“安全”、“控制成本”等目标，并进行初步的规划。规则引擎的必要性：当涉及到具体的国际贸易规则（如不同国家的海关关税计算、特定货物的进出口限制）、合同条款的精确执行、或者需要严格遵守的合规性检查时，LLM 的“模糊性”就可能成为问题。例如，某个关税率的计算可能涉及多个变量和复杂的逻辑，LLM 的直接输出可能不够精确或容易出错。混合智能模式：我们采用“混合智能”模式。LLM 负责理解业务意图、识别场景、生成初步的执行计划或选项。然后，这些计划和选项会被传递给规则引擎或知识图谱进行验证、细化和精确执行。例如，LLM 识别到需要计算关税，它会提取相关信息（商品编码、原产地、目的地、价值），然后将这些信息传递给一个集成了国际贸易规则的规则引擎，由规则引擎输出精确的关税金额。

● 解决专业领域推理盲区：

领域知识注入与 RAG：最直接的方式是通过 RAG 技术。我们构建了庞大的国际贸易规则、法律法规、合同条款等专业知识库。当 LLM 需要进行相关推理时，系统会先从知识库中检索最相关、最权威的信息，然后将这些信息与 LLM 的原始提示结合起来，让 LLM 基于这些“外部知识”来生成更准确的回答和计划。专业模型微调：针对特定领域，对基础 LLM 进行微调，使其学习特定领域的语言模式、逻辑和知识。人机协同反馈：建立一个专家反馈机制，让领域专家对 LLM 在专业领域的输出进行评估和修正，这些反馈数据将用于模型的持续迭代和优化。

通过这种“LLM + 规则引擎/知识图谱 + RAG + 人工反馈”的组合拳，我们能够最大限度地发挥 LLM 的灵活性和智能化，同时弥补其在专业领域的不足，确保业务的准确性和合规性。

DataFun：物流场景高度非标（如“一票一议”）。Agentic系统如何兼顾标准化与个性化？是否支持客户自定义治理规则（WOL层）？

徐红维：海管家的 Agentic 架构通过 WOL 层的灵活性和 APL 层的适应性，完美地兼顾了标准化与个性化，并完全支持客户自定义治理规则。

“一票一议”是物流行业普遍存在的现象，意味着每一票货物的处理细节可能都不同。我们的 WOL-APL-EVAL 架构正是为此而设计：

标准化（WOL 层）：顶层流程框架：WOL 层定义了通用的、标准化的业务流程范式和关键控制点。例如，所有订单都必须经过“信息录入-风险评估-资源匹配-执行-交付-结算”等核心阶段。客户自定义治理规则：这是关键点。 WOL 层允许我们的客户（物流公司、货主等）根据自身的业务模式、合同条款、风险偏好和合规要求，自定义治理规则。例如，一个客户可以设置自己的“一票一议”规则，指定某些特定客户或货物的特殊处理流程、费用计算方式，或者特定的风险控制阈值。这些自定义规则就构成了该客户业务的“标准化”框架。个性化（APL 层）：目标导向的自主规划：在 WOL 层设定的标准化框架内，APL 层的 Agent 则负责处理具体的“个性化”需求。当接收到一票特殊的货物（例如，需要特殊温控的货物，或者有特殊交付要求的货物）时，Agent 会根据 WOL 中为该类货物设定的特定规则（如果存在），或者根据其学习到的通用物流知识，自主规划出最适合该票货物的执行方案。动态适应：Agent 能够理解并执行“一票一议”的特殊指令，比如为某票货独立生成一份账单，或为某票货安排特殊的运输路线。它不是在执行一个僵化的模板，而是在一个有边界的框架内，为每个个体任务找到最佳的执行路径。

我们不是强制所有客户遵循同一套流程，而是提供一个强大且可配置的框架，让客户可以在这个框架内定义自己的“标准化”管理，同时让 AI Agent 去灵活地处理“个性化”的业务细节。

DataFun：海管家的Agentic实践已被验证，该架构能否迁移至制造、医疗等领域？哪些模块（如APL规划器、EVAL评估框架）具备跨行业复用潜力？

徐红维：（一句话：产生方法的方法大于产生的方法。）

WOL-APL-EVAL 架构的设计初衷是解决“复杂业务场景下的智能化流程治理与执行”这一普遍性问题，因此其底层逻辑和框架是高度通用的。

WOL（流程治理）：复用性高，流程治理、合规控制、目标设定是任何复杂行业的核心需求。需要根据具体行业的法规、标准和业务流程，重新定义 WOL层的规则和目标。APL（自适应规划）：复用性高，核心能力——理解目标、自主规划、执行动作。需要为 APL Agent 注入新的领域知识（如制造工艺、医学知识、药品信息、患者病史等），并可能需要对 Agent 的感知和执行能力进行适配。EVAL（评估机制）：复用性非常高，衡量效果、控制风险、持续优化的评估框架是所有智能化系统成功的关键。主要在于定义新的、行业特有的评估指标和风险阈值。

本次DACon大会汇聚了顶尖互联网公司的 Agentic AI 建设先锋，内容直击企业AI落地的核心挑战与解决方案。无论您是关注AI平台建设、工程效能提升、模型应用落地，还是寻求降低开发门槛、释放创新潜力的技术决策者或开发者，都将在这里获得极具价值的启发与实践参考。

除了两天的技术干货分享，会议现场还会组织闪电演讲，闭门会，晚场圆桌交流，Workshop深度培训，讲师们会围绕具体的技术点进行介绍，旨在丰富大家在参会体验，希望大家不虚此行，满载而归。