在线阅读 |《中国数据复制与灾备》白皮书第二章(2.5)

B站影视 内地电影 2025-09-19 11:21 1

摘要:在数字化转型浪潮的推动下,数据已成为21世纪的“新石油”,极大地促进了社会与经济的发展。在这一背景下,如何高效、安全地管理、复制和保护数据,成为企业在全球竞争中立足的关键。

在数字化转型浪潮的推动下,数据已成为21世纪的“新石油”,极大地促进了社会与经济的发展。在这一背景下,如何高效、安全地管理、复制和保护数据,成为企业在全球竞争中立足的关键。

为应对这一挑战,英方软件联合北京信息灾备技术产业联盟和华东师范大学长三角金融科技研究院发布了《中国数据复制与灾备》白皮书。本白皮书通过详实的数据分析与行业案例,展示了数据复制技术在灾备、备份和恢复等关键场景中的重要作用。同时,白皮书探讨了在金融、医疗、能源等行业中的数据保护需求,以及如何通过创新技术应对行业的多元化挑战。

此外,白皮书还紧密结合国家政策,分析了数据安全与自主可控领域的政策支持,及其对数据复制与灾备技术发展的促进作用。随着国产化替代的加速,白皮书重点关注了国产数据复制技术的发展路径和未来前景。

本系列连载将深入解析白皮书的各个章节,探讨数据复制与灾备技术的最新发展与行业应用。尤其是如何通过技术创新提升企业的业务韧性,确保在数字化转型过程中,企业能够稳步前行、应对未来挑战。

2.5 计算机相关

1946年2月14日,人类第一台计算机“埃尼阿克(ENIAC)”在美国宾夕法尼亚大学诞生后,计算机开始进入了人类社会的各个方面。发展至今,依托计算机形成了一系列产业,为了让读者更好了解数据复制相关知识,我们对计算机相关知识进行简约的描述。

2.5.1计算机及相关知识

狭义上的计算机指日常所见所用的个人电脑,或称为 PC,如台式计算机、笔记本等,也统称为微型计算机,操作系统通常采用 Windows、MacOS 操作系统。从企业范畴一般则指服务器(Server),国内按照单台服务器计算力,划分为小型机、大型机、巨型机(超级计算机)等,根据厂商的不同,其所采用操作系统也不一样,如Linux、Unix、AIX、Windows、EulerOs、Kylinos等等。

在企业级计算机领域,计算机架构发展可以归纳为经历了三个时代:物理机时代、虚拟机时代和容器化时代。三个不同时代的架构特征如下:

物理机时代:多个应用程序可能会跑在一台物理服务机器上。

虚拟机时代:一台物理服务器安装多个虚拟机(VM),一个虚拟机跑多个程序。

容器化时代:一台物理机运行大量容器实例(Container),一个容器跑多个程序。

计算机架构发展的三个时代

不管是个人电脑还是企业级计算机。计算机系统包括硬件系统和软件系统两大部分。硬件系统包括中央处理器(CPU)、存储器(内存储器)、外部设备(外存储器、输入输出设备……);软件系统包括系统软件(操作系统)、应用软件(0ffice、WPS、PS、QQ、OA、CRM…..)。

如果将多台服务器进行组合使用,通常我们将之称为服务器集群。集群是一组相互独立的。通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理,能够提高性能、降低成本,提高系统可扩展性、冗余性,并增强系统运行的可靠性。

计算机网络体系结构:是指计算机网络层次结构模型,它是各层的协议以及层次之间的端口的集合。在计算机网络中实现通信必须依靠网络通信协议,广泛采用的是国际标准化组织(ISO)1997年提出的开放系统互联(OpenSystemInterconnection,OSl)参考模型,习惯上称为ISO/OSl参考模型。

计算机网络体系结构

数据复制过程中,数据的传输会涉及到计算机各层结构,如从应用层传输需要遵循相关的标准协议,在进行跨平台跨层传输时,更要适配不同的协议或产品,为此掌握计算机网络体系结构对数据复制相关技术应用更为清晰。

防火墙(Firewall):是通过有机结合各类用于安全管理与筛选的软件和硬件设备,帮助计算机网络于其内、外网之间构建一道相对隔绝的保护屏障,以保护用户资料与信息安全性的一种技术。

防火墙技术的功能主要在于及时发现并处理计算机网络运行时可能存在的安全风险、数据传输等问题,其中处理措施包括隔离与保护,同时可对计算机网络安全当中的各项操作实施记录与检测,以确保计算机网络运行的安全性,保障用户资料与信息的完整性,为用户提供更好、更安全的计算机网络使用体验。

TCP/IP传输协议:即传输控制/网络协议,或称为网络通讯协议。作为网络使用中的最基本通信协议,它对互联网中各部分进行通信的标准和方法进行了规定,是保证网络数据信息及时、完整传输的两个重要的协议。

TCP/IP传输协议是一个四层的体系结构,应用层、传输层、网络层和数据链路层都包含其中。其中应用层的主要协议有Telnet、FTP、SMTP等,用来接收来自传输层的数据或者按不同应用要求与方式将数据传输至传输层;传输层的主要协议有UDP、TCP等,是使用者使用平台和计算机信息网内部数据结合的通道,实现数据传输与数据共享;网络层的主要协议有ICMP、IP、IGMP等,主要负责网络中数据包的传送等;数据链路层(网络访问层或网路接口层),主要协议有ARP、RARP等,主要功能是提供链路管理错误检测、对不同通信媒介有关信息细节问题进行有效处理等。

VIP(VirtualIP Address):虚拟IP地址,主要用来进行不同主机间的切换。即在容灾切换的场景下,当主生产服务器发生故障时,为了让终端使用者感觉不到故障发生带来的影响,在将服务从主切换到备服务器时,IP地址也同时漂移过去,实现应用的成功接管。

勒索病毒(勒索软件):通常指新型电脑病毒,主要以邮件、程序木马、网页挂马的形式进行传播,如针对企业用户常见的攻击方式包括U盘植入、系统漏洞攻击、远程访问弱口令攻击、钓鱼邮件攻击、Web服务漏洞和弱口令攻击、数据库漏洞和弱口令攻击等,历史上臭名昭著的勒索病毒如 WannaCry、NotPetya等,它们会通过篡改、加密、套取文件数据的非法行为对用户进行经济勒索。勒索病毒性质恶劣、危害极大,计算机一旦感染将给用户带来无法估量的损失,并可能影响国家的经济民生。如2021年5月7日,美国最大的成品油管道运营商科洛尼尔(Colonial Pipeline)输油管系统遭遇黑客组织“黑暗面(DarkSide)勒索攻击,导致美国东部沿海各州油气输送关键网络全线停运。随后美国总统拜登宣布进入区域紧急状态,该事件成为美国迄今为止最具破坏性的勒索攻击事件之一。

计算机病毒利用各种加密算法对文件数据进行加密,被感染者一般无法解密,必须拿到解密的私钥才有可能破解。

随着数据在数字化业务中的重要性进一步加强,网络不法分子(黑客)会通过各种勒索病毒及其新变种,对企业的信息系统进行攻击,进而偷取数据或加密数据,然后通过虚拟货币的形式索要赎金。如企业不缴纳赎金,将数据永久加密,或公之于众,给企业带来经济或声誉的损失。为此,除了做好网络安全防护,更要注重数据安全的保护,通过CDP备份等方式对重要数据进行异地备份,确保当数据被加密时,可通过备份数据恢复任意时间点的数据。

程序员节日:程序员(Programmer)是从事前端、后端程序开发、系统运维、测试等专业人员。程序员节日通常是说国际程序员节和中国程序员节。国际程序员节也叫“溢出节”是一个俄罗斯官方节日,日期是每年的第256天。选择第256天是取其一字节(8 位)溢出的意思(从0开始,最大到255)。2009年7月24日,俄罗斯联邦通信与大众传媒部提出了新的节日安排方案,设立程序员节。9月11日,俄罗斯总统梅德韦杰夫签署了这个法案,也就成为了俄罗斯的一个官方节日,参与国家包括以色列、孟加拉国、智利、巴西、墨西哥、奥地利、德国、加拿大、克罗地亚、法国、危地马拉、印度、比利时、澳大利亚、新西兰、波兰斯洛文尼亚、英国、美国和乌拉圭。

中国程序员节通常是在每年的10月24日,即1024程序员节。1024是2的十次方,二进制计数的基本计量单位之一。针对程序员经常周末加班与工作日熬夜的情况,部分互联网机构倡议每年的10月24日为1024程序员节,在这一天建议程序员拒绝加班。

云计算

云服务模型(laaS、Paas、Saas):根据 RightScale 2023 年的云状态报告,laas的使用率达到了 90%,Paas和Saas的使用率分别为81%和72%,显示出云计算的广泛应用。

公有云、私有云、混合云的发展:公有云市场由AWS、Microsoft Azure、GoogleCloud、阿里云、华为云主导,而私有云和混合云解决方案则因企业对数据控制和合规性的需求而持续增长。

边缘计算

边缘计算的原理与应用:边缘计算通过将数据处理和分析推向网络边缘,减少了对中心数据中心的依赖。据 IDC预测,到2025年,超过50%的数据将在边缘进行存储、处理和分析。

人工智能技术

人工智能在计算机架构中的应用:AI技术正在被用于优化资源分配,例如,Google的DeepMindAl 系统已经帮助其数据中心减少了15%的能源消耗。

智能化数据复制和管理:AI可以帮助预测数据访问模式,从而优化数据复制策略。例如,IBM的Watson Data Platform提供了驱动的数据管理功能。

量子计算

量子计算的基本概念:量子计算利用量子位进行计算,具有并行处理大量数据的能力。IBM、Google和Microsoft等公司都在量子计算领域进行了重大投资。

量子计算对计算机架构的潜在影响:虽然量子计算仍处于起步阶段,但其潜力巨大,未来可能会在药物发现、材料科学和密码学等领域引发革命。

网络安全与数据保护

最新网络安全威胁

勒索病毒、网络攻击的新动向:根据Cybersecurity Ventures的预测,到2025 年,全球因网络犯罪造成的损失将每年增长 15%,达到10.5万亿美元。

防御策略与安全措施:企业正在采用多因素认证、端点检测和响应(EDR)系统以及安全信息和事件管理(SIEM)系统来增强网络安全。

数据安全

数据加密与隐私保护:随着GDPR等数据保护法规的实施,企业越来越重视数据加密和隐私保护技术。例如,TLS1.3和量子密钥分发(OKD)技术的发展正在提升数据传输的安全性。

备份与恢复策略:根据2023年数据保护报告,超过80%的企业认为数据备份和恢复是他们的首要任务,强调了定期测试和验证恢复计划的重要性。

2.5.2 数据库及相关知识

数据库(Database)是一个按数据结构来存储和管理数据的计算机软件系统,通俗讲就是存放数据的仓库。数据库的存储空间很大,可以存放百万条、千万条、上亿条数据。

数据库包括两层意思:

(1)数据库是一个实体,它是能够合理保管数据的“仓库”,用户在该“仓库”中存放要管理的事务数据,“数据”和“库”两个概念结合成为数据库。

(2)数据库是数据管理的新方法和技术,它能更合适的组织数据、更方便的维护数据、更严密的控制数据和更有效的利用数据。

数据库、操作系统、中间件作为传统的三大基础软件,是确保计算机系统稳定运行的基石。数据库根据数据存储方式的不同,可划分为关系型数据库和非关系型数据库两大类。

关系数据库:是建立在“有关系”基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。在关系型数据库中,对数据的操作几乎全部建立在一个或多个关系表格上。在大型系统中通常有多个表,且表之间有各种关系。实际使用就是通过对这些关联的表格分类、合并、连接或选取等运算来实现数据库的管理。常见的关系型数据库有Oracle、SQLServer、MySQL、DB2等等。

(1)Oracle数据库

Oracle数据库是美国甲骨文公司推出以分布式数据库为核心的一组软件产品,是目前世界上使用广泛的数据库管理系统。作为一个通用的数据库系统,它具有完整的数据管理功能;作为一个关系数据库,它是一个完备关系的产品;作为分布式数据库,它实现了分布式处理功能。

(2)SQL Server数据库

SQL Server是微软公司开发的商业数据库,是一个比较全面的数据库平台,使用集成的商业智能工具提供了企业级的数据管理。SQL Server数据库引擎为关系型数据和结构化数据提供了更安全可靠的存储功能,且具有使用方便可伸缩性好与相关软件集成程度高等优点。

(3)MySQL数据库

MySQL是世界流行的关系型数据库管理系统之一。这种数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了读取的速度并提高了灵活性。MySQL所使用的SQL语言是用于访问数据库的常用标准化语言。其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,一般中小型网站的开发都选择MySQL作为网站数据库。

(4)DB2数据库

DB2是美国IBM公司开发的一套关系型数据库管理系统,它主要的运行环境为UNIX(包括IBM自家的AIX)、Linux、IBMi(旧称OS/400)、z/OS,以及 Windows服务器版本。DB2主要应用于大型应用系统,具有较好的可伸缩性,可支持从大型机到单用户环境,应用于所有常见的服务器操作系统平台下。DB2提供了高层次的数据利用性、完整性、安全性、可恢复性,以及小规模到大规模应用程序的执行能力,具有与平台无关的基本功能和SQL命令。

不同品牌的关系型数据库,是如何进行通信的呢。为了解决这个问题,1986年10月,美国ANSI采用SQL作为关系数据库管理系统的标准语言,后为国际标准化组织(ISO)采纳为国际标准。SQL的中文全称是结构化查询语言(Structured QueryLanguage),是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。

SQL可用于存取数据以及查询、更新和管理关系数据库系统,包含六个部分:

数据查询语言(DQL: Data Query Language):用以从表中获得数据,确定数据怎样在应用程序给出。

数据操作语言(DML:Data Manipulation Language):其语句包括动词 INSERT、UPDATE和 DELETE,分别用于添加、修改和删除。

事务控制语言(TCL):它的语句能确保被 DML语句影响的表的所有行及时得以更新。

包括COMMIT(提交)命令、SAVEPOINT(保存点)命令、ROLLBACK(回滚)命令。

数据控制语言(DCL):它的语句通过 GRANT 或 REVOKE 实现权限控制,确定单个用户和用户组对数据库对象的访问。

数据定义语言(DDL):其语句包括动词CREATE,ALTER和DROP。在数据库中创建新表或修改、删除表(CREATETABLE或DROP TABLE);为表加入索引等。

指针控制语言(CCL):它的语句,像DECLARECURSOR,FETCH INTO和 UPDATEWHERE CURRENT 用于对一个或多个表单独行的操作。

云数据RDS:关系型数据库服务(Relational Database Service)的简称,是一种即开即用、稳定可靠、可弹性伸缩的在线数据库服务。支持MySQL、SQLServer、PostgreSQL、PPAS、MariaDB等引擎,并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案。

非关系型数据库(NoSQL):是指每条数据间都是独立存在的,不存在任何关系。非关系型数据库严格意义上来说,并不是一种数据库,而是一种数据结构化存储方法的集合,类似于文档、键值对或者图结构。非关系型数据库的产生,是为了解决大规模数据集合多重数据种类带来的挑战,特别是大数据应用难题。常见的非关系型数据库有MongoDB、Redis、Hbase等等。

(1)MongoDB数据库

MongoDB是一款为Web应用程序和互联网基础设施设计的数据库管理系统。MongoDB使用BSON(类JSON)作为其数据模型结构,其结构是面向对象的而不是二维表,可以表示丰富的、有层级的数据结构,从而使得MongoDB能在生产环境中提供高读写的能力,吞吐量较于MySQL等SQL数据库大大增强。

(2)Redis数据库

Redis是典型的是非关系型数据库,且 Redis 是一款开源数据库,支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。Redis不仅仅支持简单的KeyValue 类型的数据,同时还提供list、set、zset、hash等数据结构的存储,同时还支持数据的备份,即Master-Slave模式的数据备份。

除了传统的关系型数据库和非关系型数据库,行业内根据应用场景不同,将数据库进行更详细的划分,如关系型数据库包含云数据库、云原生关系型数据库、云原生分布式数据库等NoSQL数据库包含云数据库Redis版、时序数据库、图数据库等。

此外,内存数据库也常被人提及。内存数据库(主存数据库),是将数据放在内存中直接操作的数据库。相对于磁盘,内存的数据读写速度要高出几个数量级,将数据保存在内存中相比从磁盘上访问能够极大地提高应用的性能。内存数据库比较有代表性如SAP HANA内存数据库。

NewSQL数据库:

NewSQL数据库旨在结合传统关系型数据库和NoSQL的优势,提供高可用性、可扩展性和强一致性。例如,Google Spanner是一个可全球分布式的NewSQL数据库,它支持外部一致性的事务和原子性schema变更,使得跨地域的数据处理成为可能。而AmazonAurara则是一个兼容MySQL和PostgreSQL的NewSQL数据库服务,它提供了商业数据库的性能和可用性,同时具有开源数据库的简洁性和成本效益。

1.快速处理向量数据:向量数据库采用专用设计,能以非常快的速度处理向量数据,提高数据处理的效率。

2.易于操作:向量数据库所提供的查询、检索及管理功能,比传统的文本和矩阵数据库更加完善、高效。

3.可检索性强:提供多种检索功能,如近似最近邻(ANN)搜索、倒排文件(NF)搜索等,可快速定位特定的向量数据。

4.安全性高:基于自身设计,操作简单,比传统数据库更安全。

5.可扩展性强:可以通过网络共享向量数据,实现自动扩展。

向量数据库:

向量数据库是专门用来存储和查询向量的数据库,其存储的向量来自于对文本、语音、图像、视频等的向量化。与传统数据库相比,向量数据库可以处理更多非结构化数据(比如图像和音频)。在机器学习和深度学习中,数据通常以向量形式表示。向量数据库通过提供k-NN索引等专门索引来提供向量相似性搜索,同时提供其他数据库功能,如管理矢量数据以及其他数据类型、工作负载管理、访问控制等。

随着大数据时代的到来,海量数据对于传统的数据库在计算、查询、分析等方面带来了巨大挑战,分布式数据库由此诞生。

分布式数据库:

通常使用较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都可能有DBMS的一份完整拷贝副本,或者部分拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。

此外,根据数据库应用方向及市场目标,可以将数据库划分为事务型数据库与分析型数据库。

事务型数据库是面向应用的数据库,注重实时性,响应及时性要求很高,关注最近一段时间的数据。通常 DBA 搭建的服务都可以称为事务型数据库。

分析型数据库是面向海量数据分析,并总结数据规律的数据库。通常存储的数据时间跨度长、数据量大,对实时性要求不高,通过查询分析数据反映的规律和趋势,提供决策支撑。

近年来,随着中国基础软件人才的发展壮大,国产数据库也得到了蓬勃发展。在信息技术国产化发展政策的支持下,国内涌现了一大批国产数据库,包括达梦的DM数据库、电科金仓的 KingbaseES 和金仓分布式数据库、南大通用的GBase8s和 GBase 8a MPP Cluster、神舟通用的神通数据库、瀚高的瀚高数据库、虚谷伟业的虚谷数据库、东方金信的海盒数据库海量数据的 G100 数据库、万里开源的安全数据库、优炫的优炫数据库、阿里云的 PolarDB、腾讯云的 TDSOL和腾讯云分布式数据库、华为云的TaurusDB和GaussDB、平凯星辰的平凯数据库、中兴的 GoldenDB以及奥星贝斯的OceanBase数据库。这些产品涵盖了集中式和分布式数据库,展现了国产数据库在研发能力和市场多样性方面的显著进步。

数据库其他相关知识

自动化运维:数据库的自动化运维正在成为行业标准,它包括自动备份、故障转移、性能监控和优化。这些自动化工具和平台,如AWS RDS和 Google Cloud SQL,极大地简化了数据库管理员的日常任务。

智能优化:机器学习算法正在被集成到数据库管理系统中,以实现智能化的性能优化。这些系统可以自动调整查询计划、索引策略和资源分配,以提高数据库的效率和响应速度。

机器学习集成:数据库与机器学习的集成正在成为趋势,例如,数据库内机器学习(In-Database Machine Learning)允许直接在数据库中执行机器学习模型训练和预测,减少了数据移动和延迟。

数据库安全与合规性:在数据安全日益重要的今天,数据库的安全性和合规性成为了企业不可忽视的重要议题。

数据加密:数据加密是保护数据免受未授权访问的重要手段。现代数据库支持多种加密技术,包括透明数据加密(TDE)、字段级加密(FLE)和传输层加密(TLE),以确保数据在静止和传输过程中的安全性。

访问控制:访问控制机制如角色基础访问控制(RBAC)和属性基础访问控制(ABAC)被用于限制对数据库的访问,确保只有授权用户能够访问敏感数据。

审计日志:审计日志记录了数据库的所有操作,这对于追踪潜在的安全威胁、合规性检查和故障排除至关重要。现代数据库管理系统通常提供详细的审计功能,以满足各种法规要求。

2.5.3 存储及相关知识

存储系统是计算机的重要组成部分之一,提供读、写计算机工作需要的信息(程序和数据)的能力,实现计算机的信息记忆功能。存储系统需要依托存储介质进行数据的存储,常见的存储介质包括:

磁盘:磁盘是指利用磁记录技术存储数据的存储器,是计算机主要的存储介质,可以存储大量的二进制数据。

磁盘阵列:磁盘阵列(RedundantArays ofIndependent Disks,RAID),指独立磁盘构成的具有冗余能力的阵列,由很多块独立的磁盘,组合成一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。

网盘:网盘又称网络硬盘、网络U盘,是一种基于网络的在线存储服务。网盘向用户提供文件的存储、共享、访问、备份等文档管理功能。例如英方软件推出的i2Share文件共享和管理软件,就是可以实现企业级数据备份和共享/企业私有云盘管理系统。

磁带 (Tape):存储介质,在带库中使用条形码作为唯一标识。磁带可以提供高容量、低成本的存储空间,适合长期存储备份数据

磁带库:磁带库是像自动加载磁带机一样的基于磁带的备份系统,能够提供同样的基本自动备份和数据恢复功能,但同时具有更先进的技术特点。磁带库支持多个驱动器并行工作,也可以几个驱动器指向不同的服务器来做备份,存储容量达到 PB级,可实现连续备份、自动搜索磁带等功能,并可在管理软件的支持下实现智能恢复、实时监控和统计,是集中式网络数据备份的主要设备。

磁带是比硬盘更为早期的存储介质,随着存储技术的发展,以及硬盘制造成本和容量的持续扩大,硬盘逐渐取代磁带成为存储介质的主要选择。但部分需要长期(如30年)保存数据,考虑到经济成本问题,选择磁带作为存储介质,也是一种较为常见的方案。此外,对于磁盘与磁带间的数据复制,也可以通过特定的软件程序实现数据的迁移、备份等。

磁带池 (Tape Pool):按周期进行标识的磁带集合,如周带池、月带池、年带池等。磁带池可以方便管理磁带,避免数据混淆。

磁带组 (Tape Group):一组磁带的集合,包含磁带组名称、组内序号等信息。磁带组可以方便管理磁带,避免数据混淆。

光盘存储:光盘存储是一种利用激光技术在光盘表面烧录信息以进行数据保存的技术,它分为只读光盘(如CD-R、DVD-R)和可擦写光盘(如CD-RW)等类型,通过激光束在光盘表面形成微小的凸起或凹陷来记录数据,而蓝光光盘作为先进的光盘存储技术,则提供了更高的存储密度和读取质量。

驱动器(Drive):磁带库中用于读写数据的设备,不同类型的磁带需要使用相应的驱动器。驱动器决定了磁带的读写速度和兼容性。

机械臂主机(Robot Control Host):与磁带库通信的备份服务器,用于控制机械臂移动磁带。机械臂主机可以自动化磁带的管理,提高备份效率。

存储形式方面,数据存储一般以磁盘阵列等设备为外设,围绕服务器通过网络直连的方式进行存储,通常称之为网络存储形式。

网络存储:网络存储是数据存储的一种方式,是一种特殊的专用数据存储服务器,包括存储器件(例如磁盘阵列、CD/DVD驱动器、磁带驱动器或可移动的存储介质)和内嵌系统软件,可提供跨平台文件共享功能。网络存储集中管理和处理网络上的所有数据,将负载从应用或企业服务器上卸载下来,有效降低总拥有成本,保护用户投资。

网络存储结构大致分为:直连式存储(DAS:DirectAttached Storage)、网络附加存储(NAS:Network Attached Storage)和存储区域网(SAN:Storage Area Network),以及对象存储。

直连式存储(DAS):是指将存储设备通过SCSI接口或光纤通道直接连接到一台计算机上。DAS购置成本低,配置简单,使用过程和使用本机硬盘并无太大差别,对于服务器的要求仅仅是一个外接的SCSI接口。

网络附加存储(NAS):是一种文件级存储架构,通过将存储设备连接到现有的网络上来提供数据和文件服务,它的重点在于帮助工作组和部门级机构解决迅速增加存储容量的需求。

存储区域网络(SAN):SAN 是一种专门为存储建立的独立于TCP/IP网络之外的专用网络,将设备通过光纤通道连接到一群计算机上。在该网络中提供了多主机连接,但并非通过标准的网络拓扑,扩展性很强。

对象存储(OBS):同时兼具 SAN 可直接高速访问以及 NAS 可拓展性的特点。其核心是将数据通路(数据读或写)和控制通路(元数据)分离,并且基于对象存储设备(Object-basedStorage Device,OSD)构建存储系统。每个对象存储设备具有一定的智能性,能够自动管理其上的数据分布。

四大存储形式

重删存储(Deduplicating storage):支持软件重删能力的存储介质,支持多种重删算法和数据压缩。重删存储可以显著减少备份所需的存储空间。

近年来随着数据量的激增,又由传统的集中式存储系统,发展出了分布式存储、云存储等存储系统。

分布式存储:为了适应数据量的爆发式增长,具有优秀的可扩展能力的分布式存储成为大数据存储的主流架构方式。分布式存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,提高了系统的可靠性、可用性和存取效率,且易于扩展。

云存储:随着互联网的快速发展,云计算技术快速渗透到各个领域。云存储是由第三方运营商提供的在线存储系统,是云计算的延伸和重要组件之一,提供了“按需分配、按量计费的数据存储服务。用户通过向第三方运营商购买或租赁存储空间的方式,将数据存放在第三方托管的多台虚拟服务器上。第三方运营商集中、统一地部署和管理存储系统,降低了数据存储的成本,并提供数据管理、数据保护等功能,用户可自行使用此云存储来存放、管理文件或对象。

存储设备及存储形式之间如何进行通信,同样需要通信协议进行。

网络数据管理协议(NDMP):一种支持智能数据存储设备、磁带库设备及备份应用程序之间互相通信以完成备份过程的通信协议。服务器只要向支持NDMP协议的存储设备发送NDMP指令,即可让存储设备将其自己的数据直接发送到其他设备上,而不需要流经服务器主机。

小型计算机系统接口(Small Computer System Interface,简写:SCSI):一种用于计算机和智能设备之间 (硬盘、软驱、光驱、打印机、扫描仪等) 系统级接口的独立处理器标准。SCSI是一种智能的通用接口标准。它是各种计算机与外部设备之间的接口标准。

互联网小型计算机系统接口(nternet Small Computer System Interface,简写:iSCSI):是一种基于TCP/IP的协议,用来建立和管理IP存储设备、主机和客户机等之间的相互连接,并创建存储区域网络(SAN)。SAN使得 SCSI协议应用于高速数据传输网络成为可能,这种传输以数据块级别(block-evel)在多个数据存储网络间进行。

新兴存储技术

NVMe-oF(Non-Volatile Memory Express over Fabrics):

NVMe-oF是一种新兴的存储协议,它将NVMe的高性能特性扩展到网络环境中。这种技术允许通过高速网络(如RDMA over Converged Ethernet or RoCE)访问远程存储,显著降低了访问延迟,提高了吞吐量。NVMe-oF在数据中心和云计算环境中特别有用,尤其是在需要快速数据访问的应用场景中。

SMR(Shingled Magnetic Recording):

SMR是一种硬盘存储技术,它通过重叠(或称为“镶边”)磁道来提高存储密度,从而增加硬盘的容量。与传统的磁记录技术相比,SMR能够以更低的成本提供更高的存储容量,适用于大规模数据存储需求。

对象存储和块存储的最新发展:

对象存储和块存储是两种主要的存储方式,它们在数据湖和分析应用中扮演着重要角色。对象存储以其高度的可扩展性和灵活性,成为存储非结构化数据的首选方案。而块存储则因其高性能和低延迟,常用于需要快速数据访问的数据库和事务处理系统。最新的发展包括更高效的压缩算法、更强大的数据冗余和恢复机制。

存储自动化与智能化

存储自动化:

存储自动化通过软件定义的存储(SDS)和存储即服务(STaas)模型,简化了存储管理。它允许自动执行重复性任务,如数据备份、恢复和迁移,从而减少了人为错误,提高了运营效率。

数据分层:

数据分层是一种将数据根据其访问频率和重要性分配到不同类型存储介质上的策略。这种策略利用了高性能存储(如SSD)和低成本存储(如HDD)的优势,通过自动化工具根据数据的使用模式动态调整数据位置。

智能数据分析:

利用机器学习算法对存储数据进行智能分析,可以预测存储需求、识别异常模式并优化数据布局。这种智能化的数据分析有助于提高存储效率,降低成本。

机器学习优化存储资源分配和性能:

机器学习技术可以监控存储性能指标,自动调整资源分配,以优化存储性能。例如,通过预测工作负载模式,机器学习模型可以预先分配资源,减少性能瓶颈。

绿色存储与可持续性

绿色存储技术:

绿色存储技术旨在减少存储设备的能耗和环境影响。这包括使用低功耗的存储介质、高效的数据压缩和去重技术,以及智能电源管理。

数据中心能效比(PUE)的优化策略:

数据中心能效比(PUE)是衡量数据中心能源效率的关键指标。优化PUE的策略包括使用高效的服务器和存储设备、改进冷却系统、实施能源管理系统以及利用可再生能源。通过这些措施,企业不仅能够减少运营成本,还能实现环境可持续性。

2.5.4云计算及相关知识

云计算(Cloud Computing)是分布式计算的一种形式,是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期就是简单的分布式计算,解决任务分发,并进行计算结果的合并。因而,云计算又称为网格计算。通过这项技术,可以在很短的时间内(几秒钟)完成对数以万计的数据的处理,从而达到强大的网络服务。云计算服务类型概括起来主要为laaS、Paas、Saas。

laaS(lnfrastructure as aService):基础设施即服务。指把IT基础设施作为一种服务通过网络对外提供,并根据用户对资源的实际使用量或占用量进行计费的一种服务模式。在这种服务模型中,普通用户不用自己构建一个数据中心等硬件设施,而是通过租用的方式,利用Internet从laaS 服务提供商获得计算机基础设施服务,包括服务器、存储和网络等服务。

PaaS(Platform asaService):平台即服务。它把服务器平台作为一种服务提供的商业模式,通过网络进行程序提供的服务称之为Saas,而云计算时代相应的服务器平台或者开发环境作为服务进行提供就成为了PaaS。

SaaS(Software-as-a-Service):软件即服务,通过网络提供软件服务。Saas平台供应商将应用软件统一部署在自己的服务器上,客户可以根据工作实际需求,通过互联网向厂商定购所需的应用软件服务,按定购的服务多少和时间长短向厂商支付费用,并通过互联网获得Saas平台供应商提供的服务。

云计算数据中心:是一种基于云计算架构实现计算、存储及网络资源松耦合,完全虚拟化各种IT设备、模块化程度较高、自动化程度较高、具备较高绿色节能程度的新型数据中心。其特点首先是高度的虚拟化,包括服务器、存储、网络、应用等虚拟化,使用户可以按需调用各种资源;其次是自动化管理程度,包括对物理服务器、虚拟服务器的管理,对相关业务的自动化流程管理、对客户服务的收费等自动化管理;最后是绿色节能,云计算数据中心在各方面符合绿色节能标准,一般PUE值保持在低数值水平。

云计算根据部署方式和服务对象,可划分为公有云、私有云、混合云等。

公有云:指第三方提供商为用户提供的能够使用的云,公有云一般可通过互联网使用,可能是免费或成本低廉的,公有云的核心属性是共享资源服务。这种云有许多实例,可在当今整个开放的公有网络中提供服务。公有云作为一个支撑平台,还能够整合上游的服务(如增值业务,广告)提供者和下游最终用户,打造新的价值链和生态系统。

私有云:是指为一个客户单独使用而建设的,因而提供对数据、安全性和服务质量的最有效控制。该用户拥有基础设施归属权使用权,并可以控制在此基础设施上部署应用程序的方式。私有云可部署在企业数据中心的防火墙内,也可以将它们部署在一个安全的主机托管场所,私有云的核心属性是专有资源。

在数据安全性方面,采用公有云服务的企业必须将数据托管于云服务商的数据中心,企业对数据的掌握力度自然减弱。一旦数据中心因自然灾害、人为因素或其他各方面因素导致数据丢失,将对企业带来损失。私有云在数据安全、数据备份等方面有更多的可选择空间。公有云当然也具备数据安全服务和数据备份能力,但企业对此的控制力度较差,不能处于主导地位。

混合云:融合了公有云和私有云的特点。我们知道私有云主要是面向企业用户,出于安全考虑,企业更愿意将数据存放在私有云中,但是同时又希望可以获得公有云的计算资源,在这种情况下混合云被越来越多的采用,它将公有云和私有云进行混合和匹配,以获得最佳的效果,这种个性化的解决方案,达到了既省钱又安全的目的。

此外,各行业根据自身特点和安全需求,也会建设相关的行业云,如金融云、政务云、教育云、集团云等。其他云技术及相关方案知识如下:

①云原生技术

容器、微服务、服务网格和不可变基础设施:云原生技术是构建和运行应用程序的新方法,它利用了云计算的灵活性、可扩展性和弹性。容器技术,如Docker和 Kubemetes,允许开发人员打包应用程序及其依赖项,实现轻量级、可移植的运行环境。微服务架构将应用程序分解为独立、可扩展的服务,而服务网格(如lstio 和Linkerd)则提供了这些服务之间的通信控制和安全性。不可变基础设施则强调使用不可变更的镜像和自动化部署,以确保环境的稳定性和可重复性。

②云原生应用的设计原则和最佳实践

云原生应用设计遵循的原则包括松耦合、可观测性、声明式 API 和自动化。最佳实践涵盖了持续集成和持续部署(CI/CD)、基础设施即代码(laC)、服务发现、配置管理等方面,这些都是确保应用程序在云环境中高效运行的关键。

③多云和混合云策略

多云和混合云的最新趋势:多云和混合云策略允许企业同时使用多个云服务提供商,以及结合公有云和私有云资源。这包括跨云服务管理、数据迁移、灾难恢复和多云编排。最新的趋势表明,企业越来越倾向于这种策略,以避免供应商锁定,优化成本和性能。

多云管理工具和平台的案例研究:多云管理工具,如VMware Cloud Foundation、Red Hat OpenShift 和Azure Arc,提供了统一的操作模型和跨云资源管理。通过案例研究,我们可以了解这些工具如何帮助企业在复杂的云环境中实现资源监控、成本管理和安全性。

④边缘计算与云计算的融合

边缘计算将数据处理和分析推向网络的边缘,靠近数据源,从而减少延迟,提高响应速度。这种技术与云计算的结合,为物联网(loT)、人工智能(AI)和实时数据处理提供了新的可能性,使得数据处理更加接近用户和设备。

⑤云计算安全

云计算安全挑战:云计算安全涉及保护云环境中的数据、应用程序和基础设施。这包括理解云服务模型(laaS、Paas、Saas)的安全责任共享模型,以及应对云特定的安全威胁,如数据泄露、账户劫持和服务滥用。

云安全最佳实践和合规性:最佳实践包括使用多因素认证、加密、访问控制、安全监控和事件响应计划。合规性则涉及确保云服务符合各种行业标准和法规要求,如GDPR、HIPAA和IS0 27001。

⑥行业特定的云解决方案

不同行业对云解决方案的需求各不相同。医疗行业的云解决方案需要符合 HIPAA 等严格的隐私和安全标准;金融行业则关注高可用性和合规性;制造行业则可能更注重工业物联网(IoT)的集成和数据分析能力。分析这些行业特定的云解决方案,可以帮助企业更好地满足其独特的业务需求和技术挑战。

下期预告:第三章-数据政策及法律法规

来源:英方云

相关推荐