摘要:11月13日,“华为混合云2025年运维现代化沙龙”在北京举行。沙龙围绕混合云运维现代化发展规划、运维体系与平台现代化核心能力、大模型运维及智能运维创新实践等内容展开讨论,吸引了来自数十家央企、能源行业客户嘉宾的深度参与。
11月13日,“华为混合云2025年运维现代化沙龙”在北京举行。沙龙围绕混合云运维现代化发展规划、运维体系与平台现代化核心能力、大模型运维及智能运维创新实践等内容展开讨论,吸引了来自数十家央企、能源行业客户嘉宾的深度参与。
混合云为政企提供了灵活、高效、安全的现代化IT基础设施及核心技术支持,已成为政企IT平台建设的首选技术方案。但随着行业智能化转型加速,云平台部署服务和技术栈复杂度不断加深,这些新形势都对混合云运维工作带来了前所未有的挑战。华为依托十余年政企混合云运维经验和在云管理技术领域的持续深耕,推出了混合云现代化运维顶层设计架构。
该架构以运维体系、平台、应用及安全四大领域现代化为核心框架,旨在助力政企客户从传统架构运维向云化架构运维转型,以数字化和智能化为驱动,构建面向业务全面智能化发展的运维核心能力。
随着各行各业加快部署大模型应用,AI大模型驱动算力集群规模提升,带来运维高门槛、算力运营要求,因而对构建面向AI平台和大模型本身的运维关键能力带来了重大挑战。
首先,面向智算场景的政企运维组织结构相较传统场景产生了很大变化,政企通常缺乏智算管理门户、算力合规管控等新的支撑体系。其次,政企已有的运维运营平台往往缺失面向智算场景的算力分配、利用率可视等能力,因而无法支撑算力的高效调度和分配推荐,造成算力浪费。此外,由于系统中同时存在云管理平台、智算集群管理平台及大模型开发工具平台等智算相关部署,如缺乏软硬一体的一站式故障诊断能力,将无法支撑高效率的故障定界和诊断恢复。
针对以上痛点,华为云Stack混合云最新发布了面向智算场景的运维工具平台ManageOne AI Insight。该平台提供了一个可灵活扩展的智算门户框架,支持按需扩展门户内容,面向运维、运营、CXO等不同角色提供一体化监控、跨域定界、算力运营和可视、系统集成等能力,打造统一的智算使用入口,以匹配智算场景下对运维组织体系和架构的灵活优化需要。
除此之外,ManageOne AI Insight平台提供了算力大屏、算力看板、算力报表能力,支持AI全栈资源软硬一体化的监控、告警、资源信息的360度可视,实现了从AI任务、服务、资源池、云平台、硬件的全栈拓扑非确定性故障快速定界定位。
面向AI算力利用率提升等运营诉求,ManageOne AI Insight提供了租户、资源池等不同视角的算力分配率、占用率、闲置率、利用率智能分析,以支撑AI平台风险可视可监控。同时还支持对大模型资源池及训练任务进行优化分析,以发现闲置或冗余资源,并给出资源分配优化建议,提升智算资源的整体运营效益。
除了面向智算资源进行持续的运维运营能力增强,华为云Stack还把如何利用AI技术赋能运维工作本身作为了一个重要课题进行了深入探索和实践。在过去十多年服务了5000多家政企客户的过程中,华为混合云积累了业界最为丰富的运维数据资产、工具资产以及专家经验资产,进而形成了宝贵的运维风险库、故障模式库和专家经验库等知识资产,为大模型技术应用于智能运维提供了丰富的知识语料。
例如,结合运维知识图谱、告警传播模型、增强推理模型等大模型技术的运用,华为混合云开发了ManageOne知识问答助手、数据检索助手和故障诊断助手,在运维知识问答、数据分析和故障诊断场景中先期进行了智能运维的场景实践,可以将告警根因识别速度从小时级大幅提升至分钟级,平均故障诊断时长缩短50%以上,实现了整体运维效率数倍以上的提升,也为未来持续探索更多的智能运维场景,实现政企混合云运维的全面智能化奠定了基础。
随着政企加快数智业务的全面转型,混合云运维走向现代化已不再是可选项,而是企业竞争力的关键支柱,华为云Stack混合云将继续携手客户和伙伴,推动运维体系向智能化、现代化方向升级,为政企数智化转型注入新动能。
来源:华为云
