摘要:这事儿说白了,不是靠一两次花拳绣腿就得来的,是长期把技术往场景里推、把模型往真实网络里丢,反复试错、改进,最后才有了现在能跑起来的东西。先说能看到的变化:以前靠人工盯着的网优工作,遇到问题要人工排查、工单一堆,常常要等好几天才处理完。现在,不少地方已经把这套系
中国电信在IDC 2025中国CIO峰会上拿到一个唯一的最高奖——“AI就绪平台领军者”赛道的卓越奖。
这事儿说白了,不是靠一两次花拳绣腿就得来的,是长期把技术往场景里推、把模型往真实网络里丢,反复试错、改进,最后才有了现在能跑起来的东西。先说能看到的变化:以前靠人工盯着的网优工作,遇到问题要人工排查、工单一堆,常常要等好几天才处理完。现在,不少地方已经把这套系统放到日常运维里,比如上海、陕西这样的省市,常见的是几分钟内就能把原来拖延的工单处理掉。系统能把知识自动沉淀,出现问题的时候不是每次都从零开始,经验能即时被分享,流程能自动闭环。更直观的一个指标是,质差的工单能被系统自动处理的比例超过了75%,这玩意儿对用户体验的支撑是稳稳的。
别以为这是简单把AI搬来就行。传统的网优更像是打一堆补丁:出事了先定位,然后单点解决,常靠人经验或者大范围统一下发参数,结果就是各项指标互相掣肘,协同效率低。像功率、覆盖、5G中低频配置这些关键参数,过去很多时候为了图方便就统一下发,结果把一部分提升的空间白白浪费掉。中国电信这次把方向定在把生成式AI引入到无线传播这种复杂场景,目的很明确:不是修一个点,而是把系统治理起来,让优化从“修补”变成“规划”和“协同执行”。
技术层面不是什么神术,倒是比较系统化。团队先搭了一个专门针对无线网优的大模型,这模型的核心不是凭空想象信号怎么跑,而是建立在对无线信号传播机理的理解上,再结合大规模采集来的用户业务运行数据,去做全量的“异常模板”构建。真实流程里,系统会把实时数据和这些模板去匹配,自动判断出问题根因,然后不是给你一个临时补丁,而是给出一套更接近全局最优的参数策略。用通俗话说,就是从“看到问题修一个点”变成了“看全局,按优先级和影响范围去调整”。
运维方式也被拧了个方向。过去的模式是被动的:出问题了再派人查。现在系统能提前提醒风险,甚至自动执行一些策略调整,把运维重心从被动响应变成主动预防。工单处理时效从天级缩短到分钟级,智能化地把重复性、模式化的错误自动处理掉,人工干预少了,运维人员能腾出手去做更复杂的判断和策略设计,这对人力资源的使用效率影响很大。
要做到这一步,背后有一串看不见的苦活。前期得大量采集数据,建立和验证各种异常模板,反复调试模型和实际无线传播之间的匹配度。这个过程既要和现场设备打交道,也要把历史工单、用户体验指标、基站指标这些东西串在一起做关联分析。技术团队在基础算法上不停优化,同时还要做多智能体的协同设计:当多个优化策略会互相影响时,怎么让不同智能体协调决策,避免各自为政造成局部最优而不是全局最优,这是攻坚的重点之一。
推广的路也并非一帆风顺。早期验证时,模型在某些场景表现不错,但一到别的城市、别的频段,数据分布不同,表现就会波动。为了解决这个问题,团队不是简单地把模型往外一丢就走,而是扩大样本量、引入更多场景特征,并加上在线学习能力,让模型能在新环境里持续调整。还有流程上的工作:把原来各自为阵的团队串联起来,一线运维、网优工程师、后台数据团队现在在新的工作流下协同,形成了从问题发现到模型判断、再到规则过滤和最终执行的闭环。
讲点更接地气的。想象以前是农田里有人巡逻,发现地里长了虫子就局部喷药;现在这是装上了传感器和自动喷药机,提前探测、分区施治、并且根据实时数据调整用药量。差别在哪儿?不是省了几个人这么简单,而是把整个管理变成了可量化、可回溯的过程。比如对5G中低频的资源配置,过去靠经验去调,调整后只能看指标有没有好转;现在通过模型可以把每一项调整的影响、收益都算得更清楚,再按优先级去执行,避免一个调整把别的东西拖垮。
产业层面上,这也是“云改数转智惠”战略的落地。把云、数据、智能这些能力深度嫁接到网络运维上,本质是把人海战术替换成自动化、智能化体系。接下来要做的,不仅是把技术在更多省市复制推广,还要在基础算法、智能体协同上继续突破。中国电信表示会持续加大研发投入,深化与产业伙伴的协作,让这套能力覆盖更多核心场景。
细讲一点典型场景的落地细节。在一个城市里,先要把历史工单、用户投诉、基站指标、业务流量等东西吃进来,做成能被模型理解的数据格式。这部分工作占了大量时间,因为不同设备商、不同城市的数据格式不一样。接着是特征工程,团队会提取和合成那些能代表“信号异常”的指标,做成模板。模板不是一夜之间生出来的,是工程师和现场同事反复对比、调参后形成的稳定模式。最后是在线验证,先小范围试点,观察模型建议执行后指标变化,再慢慢扩大范围。这个过程不像实验室里做个对照试验那么干净,它涉及现场突发状况、节假日流量波动、天气影响等现实因素。
在多智能体协调方面,团队做了不少工程化的折中设计。实际网络里,有时候一个参数向上调会让别的指标下滑,单一智能体优化看起来有利,放到系统里就可能引发连锁反应。解决办法不是把智能体数量无限拉高,而是在设计时把智能体之间的策略空间和优先级规则明确下来,用规则层去做冲突仲裁,再由全局优化器去做最后的权衡。这样既能保留各个子策略的专业性,也能兼顾整体效果。
运维人员的角色也在改变。以前很多人每天就是看报警、跟工单、跑现场;现在他们更多参与到模型治理、策略评估和异常排查中,成了“监督者+策略制定者”。这对人才技能提出了新要求:不仅要懂网络设备和业务场景,还要理解数据和模型的基本工作原理。为此,中国电信在内部也做了一系列培训,把那些一线经验丰富但数据能力偏弱的同事拉进来,形成技术与经验的互补。
奖项的确是认可,但对团队来说更像是一个新起点。接下来要继续把经验复制到更多省市网络,继续优化模型和流程,让主动运维能力更稳、更广。中国电信会和产业链上下游的伙伴深化协同创新,尤其是要在基础算法和智能体协同上有更多突破,把这套东西从试点级别慢慢推上去,让日常运维真正能靠数据和模型支撑起更高效、更可控的网络管理。
来源:池边赏白鹭骚客
