科大讯飞联合华为发布运维大模型应用成果,引领智能集群运维新时代

B站影视 电影资讯 2025-09-25 19:45 1

摘要:近日,在华为全联接大会2025上,科大讯飞和华为正式发布双方联合实践的LogAnalyzer运维大模型应用实践成果。该成果标志着国内智能运维(AIOps)领域从“被动响应”向“主动运维”的产业转型取得实质性突破,在超大规模集群运维的落地案例中创造了显著的经济价

近日,在华为全联接大会2025上,科大讯飞和华为正式发布双方联合实践的LogAnalyzer运维大模型应用实践成果。该成果标志着国内智能运维(AIOps)领域从“被动响应”向“主动运维”的产业转型取得实质性突破,在超大规模集群运维的落地案例中创造了显著的经济价值。科大讯飞AI工程院副院长吴婷和华为计算CCAE领域总裁鲁驰共同出席发布仪式。

发布仪式

智算运维痛点驱动技术创新强强合作破解困局

随着大模型训练走向RL强化学习的后训练,训推反复迭代带来故障模式变化,对运维提出挑战。同时新硬件上市、新业务应用,故障模式库逐步增长,按照通常3个月周期发布故障模式库,无法及时处理现网疑难问题。未覆盖故障分析依赖算网存各域专家手工分析,故障分析需要天级到周级不等,耗时长效率低,集群可用度受到损失。

科大讯飞一直以来和华为紧密合作,将CCAE集群运维软件融入集群日常运维流程,提升智能运维水平。今年5月,瞄准解决疑难新故障的诊断,双方首次在CCAE中引入基于日志大模型底座的AI辅助分析引擎LogAnalyzer,采用智能体的方式快速定位疑难故障,合作破解集群运维的困局。

吴婷现场介绍联合实践成果

三大技术突破构建核心优势重塑运维逻辑

通过领先数据源、作业级分析技术、故障传播链分析算法三方面,LogAnalyzer获得了领先的故障智能诊断能力。

训练大模型的数据来源包括昇腾集群的底层设备日志,CANN等基础软件的日志,以及多年积累的故障诊断经验。独有的数据源是运维大模型应用效果好坏的关键之一。

基于异常日志感知和提取的异常信息,和NPU、CANN等领域知识,生成训练进程故障时间线和故障现象汇总进程级现象,自动生成作业级别的故障现象。

结合作业、进程级别的异常事件信息,构筑基于大模型的故障传播链技术。

标杆案例印证商业价值行业实践实现效率革命

吴婷表示,在科大讯飞大规模集群运行阶段,LogAnalyzer基于大模型全面分析日志,显著提升故障定位效率。上线4个月以来,累计定位80+个疑难故障,平均诊断时长10分钟,准确率达到88%,现网效果超过预期。本次运维大模型联合实践成果发布是一个新的起点,双方还将持续联合创新,从LogAnalyzer走向多AI Agent系统,打造业界领先的智算集群智能化运维解决方案。

来源:新浪财经

相关推荐