某制造集团可靠性实践细节曝光:以信服云承载核心业务系统

B站影视 2024-12-09 14:23 2

摘要:在集团大刀阔斧推进数字化转型的征程中,传统的架构暴露出诸多短板:一方面,其难以切实保障业务的不间断运行,无法契合当下数字化业务灵活、多变、快速迭代的需求,业务连续性大打折扣;另一方面,繁杂琐碎的运维流程牵扯大量人力、物力,致使运维管理举步维艰。为给新型数字化业

某智能制造集团聚焦智能制造、工业互联网两大关键领域,全力搭建全方位、端到端的数字化生态体系,致力于铸就国家级智能制造标杆工厂,引领行业数字化革新潮流。

在集团大刀阔斧推进数字化转型的征程中,传统的架构暴露出诸多短板:一方面,其难以切实保障业务的不间断运行,无法契合当下数字化业务灵活、多变、快速迭代的需求,业务连续性大打折扣;另一方面,繁杂琐碎的运维流程牵扯大量人力、物力,致使运维管理举步维艰。为给新型数字化业务筑牢稳固可靠的运行基石,达成云 IT 基础设施一站式、标准化运维管理,集团经多方考察、审慎抉择,敲定采用深信服分布式云整体方案,以此搭建一体化的 IT 根基平台。依托该平台,集团旗下各个生产基地纷繁复杂的生产数字化业务得以顺畅开展,总部的经营统筹、战略规划等一系列管理事务也有了坚实依托,特别是针对制造运营管理(MOM)系统,实现高效、稳定承载,全方位赋能集团数字化转型进程。

一、应用场景介绍

制造运营管理(Manufacturing Operation Management),其核心要义在于统筹调配企业内部的人力团队、生产设备、物料库存以及能源供给等各类关键要素,精准把控从原材料、零部件起始,直至成品产出的全流程转化活动,促使生产制造平稳、高效运转,堪称企业运营的关键 “指挥中枢”。MOM 着重涉猎生产制造流程里 12 个重要板块的业务运作,业内通常将之视作 MOM 系统需配备完善的核心功能分区。展开来讲,先是基础资源统筹板块相关业务,涵盖资源调配与把控、文件资料管控、人力要素运营三大类目;再者是关联生产规划以及生产组织协调的关键行动项,具体囊括精细化工序编排、生产任务分派、工艺流程管控、数据收集汇总、生产流程实时监测、质量把控实操、物料库存监管及流向追踪、效能综合评定等关键维度,全方位助力企业制造环节的精细化、科学化管理。

ISA95—2010 定义的 MOM覆盖业务活动

传统的生产制造执行体系(MES),大多侧重于将流水线作业环节当作关键着力点,紧紧环绕产品回溯追踪、失误防范预警这类关键功能板块,全力适配单一生产场所、单一企业架构的基础业务诉求。与之相较,制造运营管理平台(MOM)作为一套综合性集成软件体系,在集成规范化程度、对外兼容开放性以及云端架构部署灵动性等层面,相较传统生产制造执行体系优势更为突出。制造运营管理系统重点聚焦订单的规划编排、统筹管控以及实操落地,致力于夯实产品批次全程追踪溯源的稳固根基,紧密衔接企业资源规划软件(ERP),筑牢品质管控的牢固壁垒,深度挖掘潜藏在生产流程里的智能要素,全方位助力制造流程的高质量、高效率推进。剖析制造运营管理概念诞生的最初动因,其核心目标就是要巧妙攻克生产制造执行体系固有的弊端与局限,本质上而言,它是生产制造执行体系逐步升级革新后的产物,生产制造执行体系的职能范畴仅仅是制造运营管理体系中的一个构成板块。

制造运营管理系统适配的行业领域涵盖:机动车生产组装、电子产品加工制造、半导体芯片研制生产、大型器械装备制造、医药产品生产、食品饮品精深加工等。

二、应用架构介绍

典型MOM系统的功能及技术架构如下图所示:

MOM功能架构

制造运营管理(MOM)系统惯常的安置架构涵盖:全实体主机、虚拟化技术搭配数据库集成设备、虚拟化模式结合外置存储设备、专属云计算环境等。以往,企业客户于各个生产厂区所运用的制造运营管理系统,大多凭借:实体服务器、又或是威睿(VMware)虚拟化技术外加数据库集成装置这类方案予以承载运行。

三、需求与痛点

1、高可靠需求:

制造运营管理系统(MOM)借助融合企业内外部各类要素资源,达成生产流程全方位的优化改良与精准细致管控,该系统对于运行的可靠性、稳定性要求极高,信息科技部门(IT 部门)必须保证制造运营管理系统全年无间断运行、零停机,源源不断且平稳地供给服务。可当下制造运营管理系统里的一些子模块服务,像是制造运营管理报表服务、制造运营管理文件服务等,都属于单体架构应用,欠缺高可靠性保障机制。所以,一旦底层的信息科技硬件设施突发故障,又或是机房遭遇意外状况时,制造运营管理系统便难以正常输出服务。企业客户满心期许底层信息科技基础架构平台,即便碰上硬件或者机房层面的变故,制造运营管理系统承载的业务也丝毫不受波及,要稳稳确保恢复点目标(RPO)为零损失,恢复时间目标(RTO)能控制在分钟级别。

2、建设维护成本高:

制造运营管理(MOM)这类生产作业系统涵盖海量的子模块服务项目。当依托实体服务器来承担运行任务之际,就得启用诸多主机单元,各主机之间的资源难以交互共享、循环利用,没办法依照每台物理机当下的承载压力状况,灵活调控资源的调配布局,致使服务器的硬件资源出现闲置、消耗不合理的情况。企业用户迫切期望能够提升资源的使用效能,避免无端损耗。

3、传统架构运维管理复杂:

各个计算机房的实体服务器数量颇为可观,资源调配至可投入使用的时长偏久,欠缺灵活的伸缩特性。再者,生产制造基地分布极为分散,依照传统技术框架,难以在集团总部施行统一、集中的管控,在系统运维保障、信息安全防护等层面均面临棘手难题。

4、生产基地IT运维能力不足:

生产制造基地的实地坐落方位大多处于三、四线城市,与集团总部相隔较远,组建专业的信息技术运维队伍耗费资金较多,运维技术人员的业务水准相对偏低。

四、方案设计

鉴于企业客户生产制造基地数目繁多、实地分布较为零散、与集团总部相隔甚远的业务布局实际情形,加之总部和各个基地业已搭建完成的专用线路网络,拟以企业客户总部的数据处理中枢为关键依托,全力打造总部核心云平台;同时在各生产区域的计算机房部署分支云端系统,于核心云平台之上搭建一体化云管控系统,塑造起 “总部 + 工厂” 以深度融合架构为根基的一体化分布式云体系,以此取代陈旧的信息技术架构,达成信息技术基础设施的集中管控、协同运维。另外,为契合生产基地制造运营管理(MOM)这类应用系统超高可靠性承载需求,谋划构筑园区层级的双活云计算平台,全力确保生产基地业务平稳、顺畅运转。

总部中心云平台和各个生产基地分支云平台主要承载的业务系统如下表:

在分布式云方案中,基于不同的业务承载需求,主要云平台的集群节点数量规划如下:

五、可靠性设计效果验证

(一)效果验证的验证目的

此次检测的关键宗旨在于核查深信服深度融合双活方案能否给制造运营管理(MOM)系统予以极为稳妥的支撑,当集群体系运作失常、网络线路突发故障、数据处理中心遭遇意外状况时,照旧能够保证制造运营管理系统有条不紊地开展服务工作。

本次试验于客户当下在用网络里启用 “深度融合双活架构搭配实体服务器” 的模式,来承载制造运营管理系统。安排 4 台深度融合服务器(两两一组)构建双活架构,肩负起制造运营管理系统的应用业务以及异步从属数据库的承载重任;另有 2 台联想品牌的服务器,担起制造运营管理系统主数据库及同步从属数据库的承载任务。拓展集群方面的业务安置位点规划准则如下:

数据处理中心机房的主故障区域优先承接对外开放、供外界调取的业务;

生产场地机房的备用故障区域优先容纳生产终端设备所需访问、调用的业务;

不同网络区间的业务各自通过不同机房施行访问对接。

(二)验证测试环境说明

MOM系统组件的可靠性要求、RTO、RPO,以及部署资源需求如下表所示:

本次试验着重选取制造运营管理(MOM)报表服务器当作测试业务对象,用以核验在网络链路、集群体系出现故障后,相应的高可靠性防护机制能否有效运行。

整体的试验组网框架结构如下:

数据处理中心机房的服务器交换设备以及生产场地机房的服务器网关交换设备,凭借设定虚拟路由器冗余协议(VRRP)虚拟网关(单一网关主备运作形式),为业务流程提供网络连接支持,与此同时,搭配网络质量分析(NQA)/ 双向转发检测(BFD)与虚拟路由器冗余协议相互联动,达成切换功能。

在网络布局架构里,借助两台实体应用交付控制器(AD)搭建主 - 主双活模式(主用心跳线路采用二层交换模式,备用心跳线路运用三层交换模式),实体应用交付控制器负责应用负载均衡调配以及业务信息发布推送。

超融合基础设施(HCI)仲裁链路接入到生产场地机房的交换设备(备注:生产场地机房的交换设备万不可出现故障,不然会对生产作业以及超融合运作造成影响)。

超融合基础设施的业务网络通道、管理网络通路、存储网络连线,均经由数据处理中心机房和生产场地机房二者间的光纤专线网络予以贯通。

生产中心的应用程序以及外部应用程序若要访问制造运营管理系统,需凭借域名来进行调取,借助应用交付控制器向外界推送发布业务信息。

(三)验证测试过程与结果

场景1:数据中心机房防火墙故障

制造运营管理(MOM)报表服务器运行于主故障区域,得面向外部应用程序以及生产应用程序开放访问权限。服务器交换设备配置双向转发检测(BFD),用以探测出口核心(在交换设备上设定探测时间间隔为 50 毫秒,探测超时时间为 150 毫秒)。一旦数据处理中心机房的防火墙出现故障,外部使用者便没办法借助数据处理中心机房网络去访问处于主故障区域的应用程序,在这个时候,服务器交换设备上所配置的双向转发检测(BFD)就会探测超时,服务器交换设备的局域网(LAN)端口会主动关闭,虚拟路由器冗余协议(VRRP)随即执行主备切换操作(虚拟路由器冗余协议生效大概耗时 200 毫秒),备用网关会迅速切换成为主控状态,主故障区域承载的业务便通过生产场地机房对外提供服务,外部使用者就能借助生产场地机房的网络来访问主故障区域承载的业务了。所以说,当数据处理中心机房防火墙出现故障之时,处于主故障区域且承载单体应用 —— 制造运营管理(MOM)报表服务器的虚拟机,无需借助高可用性(HA)机制,就能对外提供高度可靠的服务了。实地测试中网络整体切换所产生的时延低于 1 秒,符合恢复时间目标(RTO)为 5 分钟的相关要求。

场景2:服务器交换机故障

制造运营管理(MOM)报表服务器运行于主故障区域,得向外部应用程序以及生产应用程序开放访问渠道。倘若服务器交换设备出现故障,外部使用者便没办法凭借数据处理中心机房网络去访问处于主故障区域的应用程序,此种情形等同于虚拟路由器冗余协议(VRRP)网关的主控端发生故障,这时虚拟路由器冗余协议便会执行主备切换操作(虚拟路由器冗余协议生效大概耗时 200 毫秒),备用网关会转变成主控端,主故障区域承载的业务就通过生产场地机房对外提供服务,外部使用者借助生产场地机房的网络来访问主故障区域承载的业务。所以,当数据处理中心的服务器交换设备出现故障时,处于主故障区域且承载单体应用 —— 制造运营管理(MOM)报表服务器的虚拟机,无需借助高可用性(HA)机制,就能对外提供高度可靠的服务了。实地检测整体切换所产生的时延低于 1 秒,符合恢复时间目标(RTO)为 5 分钟的相关要求。

场景3:业务交换机故障

数据处理中心的服务器交换设备配置双向转发检测(BFD),用以探测应用交付控制器(AD),一旦探测不到应用交付控制器时,便会将上联端口关闭,在这个时候,网关的虚拟 IP(VIP)会切换至生产场地机房的服务器网关,出口路由的开放式最短路径优先协议(OSPF)将会重新进行寻址,定位到生产服务器网关这一交换设备上。业务交换设备出现故障时,旁挂的应用交付控制器(AD)探测不到处于主故障区域上的制造运营管理(MOM)报表服务器业务,没办法对外提供业务访问服务,外部使用者访问业务的流程就会中断。这种情况等同于超融合集群的实体出口连接的业务网络端口出现故障,所以承载制造运营管理(MOM)报表服务器的虚拟机需要高可用性(HA)保障,超融合平台的网络离线响应检测时长设定为 10 秒。3.主故障区域上承载制造运营管理(MOM)报表服务器的虚拟机依靠高可用性(HA)机制在备故障区域重新启动运行,鉴于应用交付控制器(AD)配置的是双活模式,所以当承载制造运营管理(MOM)报表服务器的虚拟机借助高可用性机制转移到生产场地机房的备故障区域后,生产场地机房的应用交付控制器探测到备故障区域上制造运营管理(MOM)报表服务器的业务处于正常状态时,生产场地机房的应用交付控制器便会向外界推送发布业务信息,并提供相应的访问服务。4.实地检测中虚拟机在借助高可用性机制后重启恢复所耗费的时间少于 2 分钟,符合恢复时间目标(RTO)为 5 分钟的相关要求,与此同时,拓展集群借助副本备份机制达成业务数据跨站点的同步更新,实现恢复点目标(RPO)为零损失的目标。

场景4:主故障域整体故障

倘若数据处理中心主故障区域出现整体性故障,那么主故障区域与备故障区域之间的管理网络以及业务网络都会陷入异常状态,这和 “业务交换设备故障” 的情形是一样的,主故障区域上承载单体应用 —— 制造运营管理(MOM)报表服务器的虚拟机依靠高可用性(HA)机制在备故障区域重新启动运行。在承载制造运营管理(MOM)报表服务器的虚拟机借助高可用性机制成功启动运行后,数据处理中心机房的应用交付控制器(AD)探测到制造运营管理(MOM)报表服务器的业务已恢复正常,便会正常提供相应服务,此时网络设备无需进行切换操作。实地检测中虚拟机在借助高可用性机制后重启恢复所耗费的时间少于 2 分钟,符合恢复时间目标(RTO)为 5 分钟的要求,与此同时,拓展集群借助副本备份机制实现业务数据跨站点的同步更新,达成恢复点目标(RPO)为零损失的目标。针对制造运营管理(MOM)系统里的主用 / 备用应用、分布式应用,分别把主用 / 备用应用以及分布式应用部署在主故障区域和备故障区域,参照单体应用的故障情形开展故障模拟试验,核验应用的高可靠承载性能,均能够满足业务对于底层虚拟机所规定的恢复点目标(RPO)、恢复时间目标(RTO)相关指标要求。

六、云平台运行效果与最佳实践

异地多资源池统一管理运行情况:

统一云管理平台管理10个物理位置分散在全国各地的超融合架构的集群资源池,纳管一个VMware集群。

MOM系统资源池运行情况:

针对电子制造领域制造运营管理(MOM)系统数据交互频次颇高、并发数据规模庞大、对时延有着较高要求的特性,运用固态硬盘(SSD)搭建全闪存资源池来承担相应承载任务。从实际运作状况而言,处于业务繁忙高峰期时,平均输入输出(IO)读取数据量可达 0.8GB / 秒,平均输入输出(IO)写入数据量为 0.3GB / 秒的高吞吐水平,平均输入输出(IO)读取时延仅为 3 毫秒,平均输入输出(IO)写入时延为 2 毫秒,由此达成制造运营管理(MOM)系统的高性能、高可靠承载目标。制造运营管理(MOM)系统应用最优实践配置生产制造基地园区双活云计算平台不同应用的可靠性提升建议方案归纳如下:七、方案价值

生产业务稳固支撑,杜绝单点故障隐患

生产基地云计算平台的双活架构助力制造运营管理(MOM)等生产业务系统实现稳定且可靠的支撑,确保生产业务能够持续不间断开展。

2.灵活应变的数字化转型信息技术(IT)根基底座

分布式云打造资源整合、数据共享、业务协同的信息技术服务新样式,资源调配至可投入使用的时长从数小时锐减到几分钟。

3.显著提高信息技术运维效率效能

云管控平台施行统一管控,借助分布式云的智能运维本领,达成总部对各个生产基地云计算平台的集中监测、运维管理,使运维效能提高 40%。

4.削减信息技术设备数量,降低节约成本

依靠云计算平台取代实体服务器,以及凭借云管控平台精细的运营管理能力,极大地提高资源使用效率,削减服务器购置数量以及能源耗费,降幅达 20%。

来源:小杨看科技

相关推荐