摘要:在数字化转型浪潮的推动下,数据已成为21世纪的“新石油”,极大地促进了社会与经济的发展。在这一背景下,如何高效、安全地管理、复制和保护数据,成为企业在全球竞争中立足的关键。
在数字化转型浪潮的推动下,数据已成为21世纪的“新石油”,极大地促进了社会与经济的发展。在这一背景下,如何高效、安全地管理、复制和保护数据,成为企业在全球竞争中立足的关键。
为应对这一挑战,英方软件联合北京信息灾备技术产业联盟和华东师范大学长三角金融科技研究院发布了《中国数据复制与灾备》白皮书。本白皮书通过详实的数据分析与行业案例,展示了数据复制技术在灾备、备份和恢复等关键场景中的重要作用。同时,白皮书探讨了在金融、医疗、能源等行业中的数据保护需求,以及如何通过创新技术应对行业的多元化挑战。
此外,白皮书还紧密结合国家政策,分析了数据安全与自主可控领域的政策支持,及其对数据复制与灾备技术发展的促进作用。随着国产化替代的加速,白皮书重点关注了国产数据复制技术的发展路径和未来前景。
本系列连载将深入解析白皮书的各个章节,探讨数据复制与灾备技术的最新发展与行业应用。尤其是如何通过技术创新提升企业的业务韧性,确保在数字化转型过程中,企业能够稳步前行、应对未来挑战。
2.3灾备
2.3.1灾备
灾备,即容灾与备份的缩写,是为了防止业务系统和业务数据因各种灾难事件(如自然灾害、软硬件故障、网络攻击、病毒入侵、操作失误等)的影响,导致数据丢失、业务系统服务终止,而利用技术、管理手段以及相关软硬件资源,在本地或异地进行备份的一种策略。
其主要目的是确保机构的关键数据、关键系统和关键业务能够在灾难发生后,快速利用备份恢复正常运行,实现业务服务的可持续性。
灾备的关键指标
RTO(Recovery Time Objective,恢复时间目标):指灾难发生后,从IT系统宕机导致业务停顿之时开始,到IT系统恢复至可以支持各部门运作、恢复运营之时,此两点之间的时间段。RTO越小,表示业务恢复速度越快。
RPO(Recovery Point Objective,恢复点目标):指从系统和应用数据而言,要实现能够恢复至可以支持各部门业务运作,系统及生产数据应恢复到怎样的更新程度。RPO越小,表示数据丢失量越少。
灾备的层次与类型
层次:灾备可以分为存储层灾备、网络层灾备、主机层灾备等不同层次。每个层次都有其特定的保护对象和实现方式。
类型:根据保护范围的不同,灾备可以分为本地灾备、同城灾备和异地灾备。本地灾备主要针对机柜级或机房级故障;同城灾备针对生产数据中心所在大楼的故障;异地灾备则针对生产数据中心所在区域的故障。
灾备的实现技术
备份技术:包括完全备份、增量备份、差异备份等。不同的备份技术有不同的优缺点,适用于不同的场景和需求。
容灾技术:包括数据同步技术、高可用集群技术、虚拟化技术等。这些技术可以确保在灾难发生时,数据能够迅速恢复,系统能够持续运行。
灾备的规划与实施
需求分析:明确企业的业务需求、数据重要性、恢复时间要求等,为灾备方案的制定提供依据。
方案设计:根据需求分析结果,设计合理的灾备方案,包括备份策略、容灾策略、恢复预案等。
实施部署:按照方案设计进行实施部署,包括备份系统的搭建、容灾系统的建立、恢复预案的演练等。
运维管理:对灾备系统进行持续的运维管理,包括备份数据的验证、容灾系统的监控、恢复预案的更新等。
DRI的十大惯例:
1.规划启动与管理
2.风险评估 (RA)
3.业务影响分析 (BIA)
4.业务连续性策略
5.事件响应
6.计划编制与实施
7.认知与培训规划
8.业务连续性计划的演练评估维护
9.危机沟通
10.与外部机构的协调
2.3.2 备份及相关知识
备份是指为防止系统出现操作失误或故障导致的数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其他存储介质的过程。旨在确保数据的完整性和可用性,在系统出现问题或数据丢失时,能够迅速恢复数据。
按照备份时间频率分为:定时备份、实时备份。
定时备份:是指有时间间隔的数据备份方式,比如一天一次,一周一次,或一个月一次,定时备份会出现数据丢失的情况。
实时备份:是指无时间间隔的数据备份方式,通过数据实时复制技术,保证主备两端的数据读写一致,确保数据的丢失量最少,甚至不丢失。
持续数据保护(Continuous Data Protection,CDP),也称作持续备份,是一个在任何变化发生时,能准实时地备份企业数据。CDP技术是对传统数据备份技术的一次革命性的重大突破。传统的数据备份解决方案专注在对数据的周期性备份上,因此一直伴随有备份窗口、数据一致性以及对生产系统的影响等问题。
英方软件i2CDP在数据复制的同时,将数据的变化以日志的方式记录并保存。当生产端的数据被误操作或感染病毒时,用户可将数据从目标端恢复到生产端,恢复到故障前的指定时刻,确保业务能够尽快继续正常运行。i2CDP可捕捉文件字节级的变化,实现数据的高精度记录,备份数据的细粒度可达百万分之一秒。
i2CDP在快速传输数据的同时,可对病毒感染、人为误操作、硬件故障等导致的数据丢失进行细粒度恢复,适用于各行业重要的信息系统,如银行、证券公司的交易系统、企业ERP系统、校园一卡通系统、医院HIS等系统,可对系统内的文件及数据库进行持续保护。
按照备份数据量分为:全量备份、增量备份、差量备份。
全量备份:用存储介质对整个数据及系统进行完全备份。这种备份方式的好处是很直观,容易被人理解,易恢复;缺点是在备份数据中有大量重复数据,由于需要备份的数据量相当大,因此备份所需时间较长。
增量备份:每次备份的数据只是相当于上一次备份后增加和修改后的数据。这种备份的优点很明显,重复数据少,即节省存储空间,又缩短了备份时间。
差量备份:是拷贝所有新产生或更新的数据,这些数据都是最近一次全量备份后产生或更新的。
增量备份与差量备份的区别是,增量备份判断数据更新标准是依据上一次备份检查点,而差量备份是依据全量备份检查点。如没有全量备份,就没有差量备份。差量备份的主要目的是限制完全恢复时使用的介质数量。
备份集(BackupSet):一次备份数据的集合,包含备份数据和元数据,分为全量备份集、增量备份和差异备份集。全量备份集包含所有数据,增量备份集仅包含自上次备份以来变化的数据,差量备份集包含自上次全量备份以来变化的数据。
数据副本管理(Copy Data Management,CDM):是一种能节约存储资源、有效管理数据生命周期的技术方式,包括消除不必要的重复生产数据。由于传统备份软件和企业应用程序独立运行,经常会创建多个相同数据的副本,数据副本管理技术也因此得名。
目前,行业比较常见的CDM产品,通常采用“首次全量+永久增量”的备份方式,在系统层、数据库层、系统层等进行数据快速采集,然后根据用户环境设置备份周期和规则,通过挂载恢复的方式,快速恢复用户的数据及业务。CDM结合分级保护、分级容灾的概念,开始在政企金融等领域推广使用。
英方软件i2CDM数据副本管理软件,通过动态文件字节级复制技术、磁盘块变化追踪技术等实时或定时捕获生产变化数据,在需要恢复时可基于快照数据虚拟出多份数据副本,实现分钟级应急接管,供用户进行读写操作,且能够满足应急接管、容灾演练、开发测试、数据抽取分析等多场景需求。
Image备份:指映像级备份,Image备份可对整个文件卷进行数据块级别备份,备份传输的是数据块而不是文件。这种备份不仅做全备份时效率提高,而且在增量备份时会更快。它采用快照技术来创建一个近似于及时的数据映像,然后对快照数据映像进行备份,对应用的影响很小。适合文件个数在百万量级以上的大型文件系统,以及更多要求恢复整个文件卷的应用环境。
映像级备份还包括Ghost备份,常用于操作系统的备份,在系统不能正常启动的时候用来恢复。Ghost备份需要借助预安装环境PE工具进行,缺点是要停机的。lmage备份在Ghost备份的基础上进行优化,可在做整机备份时不停机备份,优点是帮助用户在备端接管的情况下,如果要进行在线回迁到生产服务器时,业务可无缝切换。
按照备份对象分为:块级备份、文件级备份、数据库备份。
我们需要了解,什么叫做块级、文件级。首先看物理块与文件系统之间映射关系:扇区→物理块→逻辑块→文件系统。
块级是指以扇区为基础,一个或连续的扇区组成一个块,也称为物理块。它是在文件系统与块设备(如磁盘驱动器)之间。块级别访问是直接通过读写存储空间(磁盘、逻辑单元号Lun、文件集Volume)中的一个或者一段地址来存取数据。如存储设备将 LUN1上的0-127这128个扇区的数据给主机即完成读写。(映射关系:VOLUME≤LUN≤RAID≤存储设备中硬盘的总容量)
文件级是指文件系统,单个文件可能由一个或多个逻辑块组成,且逻辑块之间是不连续分布。逻辑块大于或等于物理块整数倍。文件级别访问是通过读写某个文件中的一段数据完成,如主机发出指令,需要存储设备将C盘下A文件的前128字节进行复制。
块级备份:以磁盘块为基本单位,将数据从源端复制到备端,即每次备份数据以一个扇区或多个连续扇区为单位来进行备份。
文件级备份:以文件为基本单位,将数据以文件的形式读出,通过文件系统接口调用备份到另一个介质上。
两者比较,相比传统的文件级备份,块级备份效率高,备份时间短,且增量备份时,只备份修改过的物理块。而传统文件级备份,首先会查找每个文件逻辑块,其次物理块,由于逻辑块是分散在物理块上,而物理块也是分散在不同扇区上。需要一层一层往下查找,最后才完成整个文件复制。
但随着数据复制技术的快速发展,以字节级复制技术为代表的文件级备份,实现了弯道超车。例如,英方软件的动态文件字节级复制技术,通过部署在操作系统层的轻量级模块,对生产端文件系统的 I/0操作进行捕获,形成实时的序列化I/0操作日志,经IP网络传输到任意距离以外的目标端,实现数据高速复制、备份。
数据库备份:围绕数据库对各种表、索引、视图、事务日志等进行定时或实时的备份,按照备份数据库的大小,数据库备份可以分为完全备份、事务日志备份、差异备份等类型。
其他分类方式
冷备、热备、温备:根据备份时服务器是否停机进行分类。
本地备份与异地备份:根据数据存储介质之间的距离进行分类。
LAN备份、LAN free备份、Server Free备份:根据备份量大小及路径进行分类。
备份的关键技术
重删技术:即重复数据删除,通过自动搜索重复数据,只保留唯一副本,并使用指针替换其他重复副本,以消除数据冗余,降低存储容量需求。
压缩技术:在不丢失信息的前提下,缩减数据量以减少存储空间,提高传输、存储和处理效率。
快照技术:创建数据的即时映像,用于快速恢复数据或进行其他操作。
备份的策略与规则
制定备份计划:特指备份的计划表,包括备份时间窗口,启动时间窗口、保留周期、以及规则生效时间等。
备份规则:特指创建的备份规则,用于选择要备份的源、备份存储介质、备份计划等,组成一个有效的集合任务,按计划时间周期性运行,并产生备份结果。
其他备份知识
备份服务器:用于接收来自客户端的备份数据,并将其保存在备份集介质上,比如本地磁盘,磁带库等。一个备份域中,可以包含多个备份服务器。在企业构建自主备份方案时,备份服务器通常是备份软件的关键载体。
备份集复制(Backup setreplication):将备份集数据从一个存储单元复制到另一个存储单元,支持跨存储类型复制。备份集复制可以提高数据冗余和可用性,例如将备份集从磁盘复制到磁带。
备份集副本 (BackupSet Copy):通过复制或归档产生的备份集,包含相同数据,仅存储介质不同。备份集副本可以用于数据迁移、灾难恢复等场景。
备份链 (Backup chain):最近一次全量备份集和后续所有依赖该全量备份集的增量/差异备份集的集合。备份链可以简化备份管理和恢复流程。
备份集过期时间 (Backup setexpiration time):定时备份规则产生的备份集过期时间或复制任务产生的备份集副本过期时间。过期时间可以自动删除备份集,释放存储空间。
备份策略 (Backup Rule):用于选择要备份的源、备份存储介质、备份计划等,按计划周期性运行并产生备份结果。备份策略可以灵活配置,满足不同的备份需求。
保留期限(Retention):设置备份集的保留期限,除“立即过期”和“永久保留”外,其他等级允许修改。保留期限可以控制备份集的保留时间,避免数据丢失。
LANFREE:通过直接连接存储设备进行数据传输,提高传输效率。LANFREE可以绕过网络瓶颈,提高备份速度。
2.3.3 容灾及相关知识
容灾是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如地震、停电、火灾、洪灾等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作,最大限度地减少业务中断的时间和影响。
满足容灾的三个基本条件:
一是系统中的部件、数据都具有冗余性,当其中一个系统发生故障停止服务时,另一个系统能够继续提供服务;
二是两个系统之间要相隔一定距离,如 50 公里左右,可提高容灾系统的抗风险能力;
三是容灾系统在数据复制生命周期中,数据具备一致性、可用性和可恢复性。
从系统的灾难防御程度区分,容灾系统可分为数据级容灾、应用级容灾和业务级容灾。
数据级容灾:指通过建立异地容灾中心,做数据的远程备份,在灾难发生后要确保原有的数据不会丢失或者遭到破坏。数据级容灾在发生灾难时应用会中断,且业务恢复的时间比较长。但是相比其他容灾级别费用比较低,而且构建实施也相对简单。
目前,公积金管理中心、医院等三级等保单位在建设容灾中心时,出现了联合异地同性质机构共同建设容灾中心的方案,即双方在本地的数据中心,可互为对方的容灾中心。这样可极大节省容灾中心的建设成本和运维成本。
应用级容灾:指在数据级容灾基础上,在异地容灾中心构建一套相同的应用系统,通过同步或异步复制技术进行数据的实时复制,保证关键应用在允许的时间范围内恢复运行,尽可能减少故障带来的损失,让用户基本感受不到故障的发生。应用级容灾是一个复杂的IT工程,不仅涉及到各类切换技术,还会涉及到人员的调配等,所以建设和运维成本相当高,通常只有银行、证券等关键机构因业务和监管要求,才会进行应用级容灾体系建设。
以SWIFT(环球同业银行金融电讯协会)为例,作为一个国际银行间非盈利性的国际合作组织,它的总部设在比利时的布鲁塞尔,同时在荷兰阿姆斯特丹、美国纽约、瑞士的苏黎世分别设立数据交换中心,另外在亚太香港与欧洲阿姆斯特丹设立生产控制中心即ECC,形成全球“三地三中心+两个控制中心”的高可用多活部署格局,值得我们借鉴。
业务级容灾:指所有核心业务的容灾,除了IT网络设备齐全,还要求场地、电力等基础设施建设完善,是所有容灾等级中最高的。随着组织数字化转型和信息化的发展,多中心生产的多活模式正在成为行业趋势,如国有大型银行可在全国建设多个数据中心,每两个中心互备,实现业务级容灾。同时,为了避免过度建设数据造成资源浪费,增加数据中心的电力负担,对于中小银行等机构,资产规模在五千亿以下的没必要自建数据中心。
根据测算,一般资产规模在一万亿以下的银行,自建数据中心的成本永远高于租赁成本。在美国丹佛有一个八万平方米的数据中心,运行的服务器基本上都是中小银行租赁的。这种集约化智能化运维即节省成本又节能环保的模式,国内银行业可以借鉴。
根据国际标准SHARE78,容灾系统被划分为七个等级,从低到高依次为:
0级:无异地备份,仅在本地进行数据备份和恢复,没有制定灾难恢复计划。
1级:实现异地备份,将关键数据备份到本地介质上并送往异地保存,但异地没有可用的备份中心。
2级:热备份站点备份,异地有热备份站点,平时将数据备份到异地主机系统,灾难发生时可以快速接管应用。
3级:在线数据恢复,通过网络将关键数据备份并存放至异地,配备备份中心及部分数据处理系统和网络通信系统。
4级:定时数据备份,在3级基础上利用备份管理软件自动定时备份部分关键数据至异地。
5级:实时数据备份,使用硬件镜像技术和软件数据复制技术,实现数据在两个站点之间的实时镜像和同步。
6级:零数据丢失,最高级别的容灾,利用专用存储网络将关键数据同步镜像至备份中心,确保灾难发生时数据雯丢失。
高可用:指通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性,是企业防止计算机系统因故障停机的最有效手段。
在国内,基于高可用系统中的两台服务器的热备(或高可用)使用较多,因此双机热备常被人提起。双机热备按工作中的切换方式分为:主备方式(Active-Standby方式)和双主方式(Active-Active方式)。
主备方式是一台服务器处于某种业务的激活状态(即Active状态),另一台服务器处于该业务的备用状态(即Standby状态)。主备方式也称为“单活”,以共享存储为基础,在数据一致性的前提下,当主生产中心工作时,备生产中心处于非工作状态,当主生产中心发生故障时,备生产中心无缝接管,保障业务连续性。
双主方式是两个生产中心同时在工作,且根据预先设置的算法规则,控制台为两个中心分配不同比例的工作任务。如第一个中心分担60%左右的任务,第二个中心分担40%左右的任务,确保当其中一个中心发生故障业务停止时,另外一个中心仍能处理业务。双主方式也称为“双活”,是一种实现系统高可用冗余常见的方案,但成本一般较高,且设备同构性要求高,如出现逻辑错误、病毒攻击等安全事件,可能无法恢复数据,造成业务停止,因此通常需要配备备份策略。
特别说明的是,行业对于双活的定义,并没有严格的界定,也有争议。例如不是同步复制技术就是双活,异步复制技术就不是双活。从技术逻辑讲,双活可以是底层没有数据交叉的双写;也可以是一边可写,另一边可读。不一定两边都是双写才能称为双活。
另外,除了单活和双活的灾备架构,现场部分行业出现了同城或异地多活的方案,如互联网电商、银行等。银行多活的模式目前较流行的是两两双活,如A-B-C可组成(BA、BC、AC)。不管是同城多活,还是异地多活,建设成本和运维成本都是巨大的,不是一般的用户能够承担的,这个需要看行业监管要求,也要契合组织的业务实时性需求。
容灾管理平台是指是一个面向企业灾难恢复体系建设的综合性管理平台,主要功能包括:
全流程管理:容灾管理平台通过全流程化的指挥管理、资源管理、预案管理及平台管理,确保容灾工作的有序进行。
可视化监控:平台结合可视化的容灾流程编排和灾难恢复国家标准,对整个应急切换、容灾演练进行全程实时监控。利用决策级的大屏界面展示容灾的关联资源,科学把握和推进容灾切换进度。
多维度大屏展示:平台提供多维度的大屏展示,包括日常监控大屏、切换指挥大屏、切换跟踪大屏等,便于各角色人员更直观、方便地观测到资源状态、切换进度、告警等信息,从而更快速地做出响应或决策。
深度对接与监控:容灾管理平台支持与高可用灾备管理软件的深度对接,同时针对特定的数据复制产品(如i2COPY、i2Active、i2Stream等),平台可监控其数据复制的状态,并可进行一键切换等操作。
容灾与双活区别:双活是系统冗余的范畴,容灾则包括在建立灾备系统时,需要涉及到多种切换技术,如SAN或NAS技术、远程镜像技术、基于IP的SAN的互连技术、快照技术等。通常来讲,容灾的建设成本要比双活低,数据丢失风险要比双活低。
快照:指对指定数据集合的一个完全可用拷贝。该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像,其作用主要是能够进行在线数据备份与恢复。快照技术被广泛应用于CDP技术、CDM技术等产品中。
等级保护:也称“等保”,即网络安全等级保护标准,是网络安全从业者开展网络安全工作的重要指导体系和制度。容灾等级保护根据用户的单位属性进行划分,如某医院为三级等保单位,其容灾方案需要按照等保三级标准进行建设。
国家网络安全等级保护工作协调小组办公室发布最新通知,明确要求自2025年3月20日起,所有等保测评项目必须严格遵循《网络安全等级测评报告模版(2025版)》。此次修订对数据安全提出更高要求,其中关键条款明确规定:未部署有效数据备份机制的系统,将被视为存在重大安全隐患!
等保标准具有很强的实用性,不仅是监管部门合规执法检查的依据,也是国内诸多网络信息安全标准制度的重要参考体系架构,是行业主管部门对于下级部门网络安全建设的指引标准的重要依据和参考体系。其中,《网络安全法》对此有明确的规范:
第二十一条:国家实行网络安全等级保护制度。网络运营者应当按照网络安全等级保护制度的要求,履行安全保护的义务。保障网络免受干扰、破坏或者未经授权的访问,防止网络数据泄露或者被窃取、篡改。
第二十五条:网络运营者应当制定网络安全事件应急预案,及时处置系统漏洞、计算机病毒、网络攻击、网络侵入等安全风险;在发生危害网络安全的事件时,立即启动应急预案,采取相应的补救措施,并按照规定向有关主管部门报告。
第五十九条:网络运营者不履行本法第二十一条、第二十五条规定的网络安全保护义务的,由有关主管部门责令改正,给予警告;拒不改正或者导致危害网络安全等后果的,处一万元以上十万元以下罚款,对直接负责的主管人员处五千元以上五万元以下罚款。第七十六条定义了网络运营者是指网络的所有者、管理者和网络服务提供者。
综合前面所述,可以通过灾备应用场景图了解整个灾备应用的大概。进入新时代,随着数字业务的发展,以及全球用户对数据安全的重视,灾备行业的发展潜力将会显现,应用场景将会愈加丰富多样,灾备边界也会越来越宽,灾备将不再是作为第二存储划归到存储领域。
2.3.4数据复制在灾备场景的应用
实时复制及CDP持续保护
在企业信息化不断发展的同时,业务数据也随之几何时增长。如何保护这些不同平台产生的不同种类数据,成为企业顺利开展信息化业务的前提和主要挑战。
英方基于动态文件字节级复制技术,推出了实时复制及CDP持续保护实践场景方案。它只关注底层的数据变化,无关存储和应用,可实时将源端数据变化过程复制到备端,并保障两端数据的一致性。整个过程不影响前端生产数据的持续输出,时延和带宽消耗都很小,且备端可随时对外提供服务。同时,此过程可叠加CDP保护,防止逻辑错误和勒索病毒等情况的发生,实现数据微秒级回退,为企业数据提供实时复制、持续保护。
单个或集群应用高可用保护
近年来,每年都有大量因服务器故障、人为误操作、自然灾害等原因造成的业务中断事故。这不仅为企业带来严重的经济损失,还为企业带来不良的社会影响。因此,为了保障业务稳定连续地对外提供服务,企业需要考虑对信息系统进行应用级保护。
英方经过持续的研发创新,推出了单个、集群应用高可用保护实践场景方案。它针对应用节点故障的情况,在数据级保护的基础上,实现对业务运行状况的实时细密度监控,一旦发现业务不可达,可实现自动或手动的业务接管,满足用户多层面需求,保护核心应用高可用性。
数据库实时容灾、应急接管、异地保护
数据库作为信息架构中的核心,单点或集群故障可能造成业务的中断。如何高效地实现数据库间一对一、一对多、多对多甚至是联级式的互联互通,并确保数据库系统和数据的安全,确保业务连续性。
英方数据库实时容灾、应急接管和异地保护实践场景方案,通过对源端数据库日志的分析,将数据变化实时提交到目标数据库,实现数据库全量同步、增量同步,并通过同步校验确保数据库源端和目标端的事务级最终一致性。整个过程无需人工干预,从初始数据到增量数据均是一体化处理。同时提供备库接管和增量回切等高级功能,帮助用户在复杂的应用环境下完成数据库的容灾备份、异构数据迁移、数据分发、构建数据仓库等数据整合工作。
虚机备份与自动化演练
虚拟化技术能够有效缓解企业服务器资源过度消耗等问题,提升资源的合理利用,优化成本的合理投入。随着企业信息化架构中虚拟化平台的增加,虚机的平台型故障对系统高可用带来严峻的挑战,同时虚拟机备份系统规模大,传统的手动备份系统的演练方式,已经无法满足海量虚拟机备份系统可用性验证。
英方推出的虚机备份与自动化演练实践场景方案,可以为用户提供虚拟化平台的虚拟机备份与恢复,以及虚拟化平台之间的虚机迁移和复制。作为无代理的虚拟化备份方案,无需在虚拟机操作系统安装任何代理程序,备份过程中不影响生产系统的正常运行。同时,为了验证虚机备端数据的可用性,方案能够在成千上万台虚机整机备份到备端后,周期性或者自动化地按需创建资源池,在不影响备端正常运作的情况下,对备端数据进行可用性验证,并提供可视化报表进行管理。
2.4 大数据
2.4.1大数据的基础知识
定义
大数据指的是数据集合,其规模、复杂性和生成速度超出了传统数据处理应用软件的处理能力。这些数据集通常包含万亿至千万亿记录,涉及各种数据类型。
特征(4V)
体积(Volume):数据量极大,从 TB到 PB甚至更多。
速度(Velocity):数据生成、处理和分析的速度极快,需要实时或近实时处理。
多样性(Variety):数据类型繁多,包括文本、图片、视频、音频、传感器数据等。
真实性(Veracity):数据的真实性和可靠性问题,如何从大量不完整、不一致的数据中提取有用信息。
大数据与海量数据的区别
海量数据强调的是数据量的庞大,而大数据则更侧重于数据的复杂性和处理这些数据所需的新技术和方法。
大数据技术:
数据采集:
日志收集:利用ELK(Elasticsearch,Logstash,Kibana)堆栈进行日志管理和分析。
网络爬虫:使用Scrapy、BeautifulSoup 等库进行网页内容的抓取。
数据抓取:通过API接口如Twitter APl、Facebook Graph AP! 获取数据。
数据存储:关系型数据库:如Oracle、MySQL、PostgreSQL,适用于结构化数据存储。非关系型数据库(NoSQL):如MongoDB、Cassandra、Redis,适用于大规模、分布式数据存储。
分布式文件系统:如HDFS、Alluxio,用于存储和处理大规模数据集。
数据处理:
批处理:使用HadoopMapReduce、Apache Spark的DataFrame APl处理大量静态数据。
流处理:使用 Apache Kafka、Apache Flink、Apache Storm 进行实时数据流的分析。
数据分析:
数据挖掘:使用 R、Python 的 Orange 或 Weka 等工具进行数据挖掘任务。
机器学习:使用 scikit-leam、XGBoost、LightGBM 等库进行模型训练和预测,深度学习:使用 TensorFlow、PyTorch、Keras 等框架构建深度神经网络模型。
数据可视化:使用 D3.is、Matplotlib、Seabom、Plotly 等工具进行数据的直观展示。
大数据与大模型:
大模型是指具有大规模参数和复杂计算结构的机器学习模型,这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。它们能够通过对数据进行深度学习训练,提取出复杂的特征和规律,从而执行各种任务,如图像识别、自然语言处理和机器翻译等。
它与大数据之间存在密切且相辅相成的关系。
大数据为大模型提供训练样本和反馈:
在大模型的情况下,大数据通过提供深度学习训练的数据,帮助模型优化和更新参数,提高准确性和泛化能力。
大数据也可以为大模型提供更多的输入和反馈,从而使其更好地适应不同的场景和任务。例如,在自然语言处理任务中,大数据可以为模型提供更多的语料库和语言模型,从而提高模型的语言理解和生成能力。
大模型利用大数据进行深度学习:
大模型可以通过对大数据的训练,不断地优化和更新自己的参数,从而提高自身的准确性和泛化能力。
同时,大数据可以提供更多的样本和场景,帮助大模型更好地学习数据分布和规律,从而提高对未知数据的预测能力。
大数据应用:
互联网搜索:Google 的 PageRank 算法、百度的百度大脑,利用大数据优化搜索结果。
商业智能:SAP BusinessObjects、IBM Cognos,通过大数据分析帮助企业做出更好的商业决策。
健康医疗:通过 IBM Watson Health、谷歌 DeepMind 等平台,利用大数据进行疾病诊断和个性化治疗。
智能交通:百度地图、滴滴出行,利用大数据进行交通流量分析、路径规划和智能调度。
金融风控:蚂蚁金服的芝麻信用、ZestFinance,通过大数据分析进行信用评估和风险控制。
大数据挑战:
数据隐私和安全:实施数据加密、安全协议、隐私保护法规(如 GDPR)来保护用户数据。
数据质量和数据治理:建立数据质量框架、数据治理策略,确保数据的准确性和一致性。
大数据的伦理问题:探讨数据所有权、算法透明度、数据偏见等伦理问题,并寻求解决方案。
硬件和软件基础设施: 采用云计算、容器化、微服务架构等技术,以应对大数据处理的挑战。
相关工具和框架:
Hadoop生态系统:包括HDFS、MapReduce、YARN、Hive、ZooKeeper、HBase、Pig等组件。
Spark生态系统:包括Spark Core、SparkSOL、Spark Streaming、MLlib、GraphX等库。
数据库系统:包括NewSQL数据库如Google Spanner、分布式数据库如AmazonDynamoDB。
数据分析工具:高级统计分析软件如SAS、SPSS,以及数据科学编程语言R和Python的相关库。
2.4.2 大数据平台及相关知识
大数据平台是指为了处理、分析和存储大规模数据集而构建的软硬件基础设施。
大数据平台架构:
数据源层:
结构化数据:如数据库、事务系统。
半结构化数据:如日志文件、XML/JSON 文件。
非结构化数据:如文本、图片、视频。
数据采集与传输层:
数据采集工具:Flume、Logstash、Filebeat、i2Stream。
数据传输工具:Apache Kafka、RabbitMQ、ActiveMQ.
数据同步工具:Apache Nifi、Apache Sqoop。
数据存储层:
关系型数据库:MySQL、PostgreSQL。
非关系型数据库:MongoDB、Cassandra、HBase。
分布式文件系统:Hadoop Distributed FileSystem(HDFS)、Amazon S3。
数据处理层:
批处理:Hadoop MapReduce、Apache Spark。
流处理:Apache Storm、ApacheFlink、Spark Streaming。
内存计算:Apachelgnite、Alluxio。
数据分析层:
SOL-on-Hadoop工具:Hive、Impala、Presto。
大数据分析库:MLlib(Spark)、TensorFlow、PyTorch。
数据挖掘工具:R、Python(Pandas、Scikit-learn)。
元数据管理层:
元数据管理:Apache Atlas、Cloudera Navigator。
数据质量管理:Talend、Trifacta。
数据治理:Collibra、Alation。
数据展现层:
商业智能工具:Tableau、PowerBl、Olik。
可视化库:D3.js、Highcharts、ECharts。
大数据平台关键技术:
分布式计算:
MapReduce模型:用于大规模数据集的并行处理。
DAG(有向无环图):Spar 中的计算模型,优化了MapReduce 的选代计算。
数据存储:
列式存储:如 HBase、Cassandra,适合读密集型应用。
文档存储:如 MongoDB,适合半结构化数据。
键值存储:如 Redis、Memcached,适合高速缓存。
资源管理:
YARN(Yet Another Resource Negotiator):Hadoop 的资源管理器。
Mesos:跨数据中心资源管理平台。
数据调度:
0ozie:Hadoop的工作流调度器。
Azkaban:Linkedin开发的工作流管理器。
数据安全与隐私:
访问控制:如 Apache Ranger、Sentry。
数据加密:如HDFS透明加密、SSL/TLS。
数据备份:如英方软件等。
常见大数据平台:
开源平台:
ApacheHadoop:包括HDFS、MapReduce、YARN、Hive 等组件。
ApacheSpark:提供快速的分布式计算能力。
ClouderaCDH(Cloudera Distribution IncludingApache Hadoop):商业化的Hadoop 发行版。
HortonworksHDP(Hortonworks Data Platform):另一个商业化的Hadoop发行版。
商业平台:
Fusionlnsight:提供数据存储、数据处理、数据分析等功能。
Transwarp Data Hub (TDH):提供数据存储、数据处理、数据分析等功能。
Amazon Web Services(AWS):提供EMR、Redshift、DynamoDB等服务。
Microsoft Azure:提供 HDInsight、Azure Synapse Analytics 等服务。
Google Cloud Platform(GCP):提供BigQuery、Dataflow、Dataproc 等服务。
2.4.3 数据复制在大数据的应用场景
异构数据源到大数据平台的实时数据流整合方案
在复杂的企业环境中,业务数据广泛分布于多种异构数据库和大数据平台。为实现数据的集中管理与分析,英方软件设计了一套实时数据流整合方案,该方案利用先进的日志解析与数据流复制技术,能够从各类异构数据源(包括关系型数据库、NoSQL数据库、数据湖等)捕获数据变化,并实时传输至目标大数据平台(如 Hadoop、Spark等)。通过图形化监控界面,用户能够直观地跟踪数据流的状态,确保数据传输的稳定性和高效性。此方案不仅提升了数据处理的时效性,还为企业的数据分析和业务决策提供了强有力的支持。
跨集群大数据平台的数据同步与容灾方案
针对大数据平台间数据同步与容灾的需求,英方软件提出了一套跨集群数据同步方案。该方案通过监听源大数据平台上的数据变化事件,实时捕获并同步至目标大数据平台,确保数据的连续性和一致性。方案支持多种同步策略,能够自动处理同步过程中的差异,并发出告警通知。同时,该方案部署灵活,适用于不同规模的生产系统,为企业提供了稳定、可靠的数据同步与容灾能力,有效降低了数据丢失和服务中断的风险。
极速行情数据分发与文件共享方案
在金融市场,行情数据的实时性和准确性对交易决策至关重要。英方软件设计了一套极速行情数据分发与文件共享方案,该方案能够快速将主机上的行情数据和普通文件分发至多个节点,支持线下和云平台环境。通过多级分发机制,方案实现了数据的低延迟、高带宽利用率的分发,同时与业务系统完全解耦,确保了数据分发的稳定性和可靠性。此方案特别适用于证券公司、期货公司等金融机构,满足了其对行情数据实时传输和文件多节点分发的需求。
数据库实时复制与数据灾备方案
为确保数据库的高可用性和数据一致性,英方软件提供了一套数据库实时复制与数据灾备方案。该方案基于数据库日志分析技术,实现了在高并发事务场景下的数据实时同步,并通过同步校验技术确保了源端和目标端的事务级最终一致性。方案广泛应用于数据库的实时容灾、异构平台迁移、负载均衡以及大型数据仓库构建等场景。通过此方案,企业能够构建快速.自动、稳定的数据灾备服务,有效应对各种数据丢失和服务中断的风险,保障业务的连续性和安全性。
企业文档集中存储与移动办公安全管控方案
随着企业数字化转型的加速,文档管理和数据安全成为企业关注的焦点。英方软件设计了一套企业文档集中存储与移动办公安全管控方案,该方案支持本地或云端文档的集中存储与管理,同时实现了办公电脑和移动终端间的文件同步。通过精确识别文件变化并快速同步至各终端,方案确保了数据的实时性和安全性。此外,方案还提供了分部门、分权限管理、全历史版本恢复、系统日志审计、文件数据加密和分享链接管理等功能,有效保障了企业数据的安全性和可控性。此方案满足了企业移动办公和数据安全管控的需求,提升了企业的运营效率和管理水平。
来源:英方云