摘要:导读AIoudata 秉持 NoETL 的核心理念,旨在通过这一技术重塑数据生产力,让数据时刻待命。NoETL 并非意味着放弃 ETL,而是希望通过自动化技术,简化并自动化繁杂的 ETL 过程。作为国内数据编织技术的领先厂商,AIoudata 的解决方案已在众
导读AIoudata 秉持 NoETL 的核心理念,旨在通过这一技术重塑数据生产力,让数据时刻待命。NoETL 并非意味着放弃 ETL,而是希望通过自动化技术,简化并自动化繁杂的 ETL 过程。作为国内数据编织技术的领先厂商,AIoudata 的解决方案已在众多生产场景中成功应用。
本次分享的主要内容包括:
1. 数据编织介绍
2. 数据编织-五大典型应用场景
3. AIoudata 产品矩阵
4. Q&A
分享嘉宾|余俊Aloudata(大应科技)合伙人 & 技术 VP
编辑整理|张俊光
内容校对|李瑶
出品社区|DataFun
01
数据编织介绍
1. 什么是数据编织
数据编织,即“Data Fabric”,其核心理念在于数据虚拟化。利用这项技术,无需复制数据,而是通过逻辑集成的方式,让数据得以高效使用。与传统数据仓库的数据集成相比,数据编织在效率、成本及组织合规等方面均展现出显著优势。
2. 数据编织的落地关键挑战
数据编织技术落地主要面临三个方面的挑战。
首要是跨源的数据连接能力。要编织这些数据,必须具备丰富的数据连接场景能力,无论是文件类数据、数据仓库中的数据,还是 API 接口的结构化、非结构化数据,都需要能够轻松连接进来。
其次,数据连接进来后,查询性能便成为了一个关键问题。即便数据能被编织进来,但查询性能不佳,对用户而言也是无法使用的。因此,优化编织数据的查询性能,成为了这项技术落地的关键一环。例如,AIoudata AIR 产品在查询性能优化方面就进行了诸多改进,后续会详细介绍。
最后,由于编织了大量数据,尤其是通过虚拟化技术连接的数据,数据的安全管控能力就显得尤为重要。对企业来说,数据安全是保障稳定运营和商业利益的关键。
3. AIoudata AIR 产品能力介绍
跨源连接能力AIoudata AIR 数据编织平台的核心优势之一,在于其提供的数据连接能力极为丰富。无论是传统的数据库、数据仓库,还是文件类存储、数据湖的对象存储,乃至流式数据等,均可轻松接入。
在逻辑数据编织平台内部,数据处理的一个显著特点是零拷贝方式。面对异构数据源,即各种访问形式不一的数据(如 API、SQL 查询,甚至 Graph Query 等),平台提供了统一的查询语言——基于 SQL 的查询语言,来处理所有类型的数据。除了查询外,还需进行的数据加工也可通过同一种 SQL 语法来实现。
此外,平台还具备数据逻辑建模能力。与传统数仓中的数据加工不同,在数据编织平台中,数据处理均基于逻辑表进行。这意味着所有加工的表仅在逻辑上存在,无需物理上创建表即可完成数据建模。
为了提升查询性能,还实现了 NoETL 作业编排能力。
简而言之,在数据源接入方面,提供了涵盖各类源的丰富能力;在逻辑数据集成方面,支持从亿级到千亿级的大规模数据逻辑集成;同时,也支持流式数据的集成。
海量数据规模下的查询性能我们通过两大关键技术来提升查询性能,即查询下推与查询加速。
在查询下推方面,相较于传统的跨源查询引擎(如 Presto、Spark),我们在下推能力和覆盖场景上进行了诸多扩展与改进。值得一提的是,我们可根据实际业务场景灵活配置下推策略。例如,对于某些生产库或业务库,若直接下推可能访问生产环境,我们可设置不允许下推,确保生产环境的稳定性不受影响。
查询加速方面,首先,实现了传统物化视图查询加速的匹配能力。在此基础上,还针对聚合类运算(如指标分析中的 group by 等)引入了专门的聚合加速机制,进一步提升查询效率。
此外,针对逻辑化的数据处理与加工,我们拥有众多逻辑层表,可在任意一层表进行数据物化加速处理。相较于传统的物化视图改写,当视图嵌套层次较多时,我们的方案仍能保持稳定性能,避免传统物化改写方案失效的问题。
综上所述,对于虚拟化连接与逻辑化数据处理后的性能挑战,我们主要通过查询下推与查询加速两大手段应对。这两种方法结合,可有效解决生产中的各种性能问题。
与传统引擎(如 Presto、Trino)相比,我们在数据湖查询场景下的性能至少是 Trino 的 3 倍以上。在全下推场景下,基于我们的虚拟化引擎查询的性能损耗极小,几乎与直连源查询相当。而经过加速后的性能,更是远超 Trino。
全方位数据安全管控在数据安全方面,提供了多项增强功能。
首先,支持实时动态脱敏。在逻辑集成的贴源层,为数据设置透明规则后,这些规则将自动继承到后续逻辑编织平台内任意一层加工的逻辑表中,无需为后续加工的表再设置脱敏规则或行级权限。
另外,实现了数据的“可算不可见”能力。即使字段对当前用户不可见或已脱敏,仍可对数据进行数据的 join、group by 等关联和计算处理,从而确保数据处理的连续性,同时保护数据安全。
同时,我们还考虑了复杂场景下的脱敏策略。例如,当字段变形或不同字段应用不同脱敏策略时,在逻辑表的加工过程中,若某个新字段由这些字段的数据组合而成,会有相应的脱敏策略来保障数据安全,避免规则冲突导致数据泄露。
值得一提的是,我们还避免了在数据处理过程中因使用 UDF(用户定义函数)而意外泄露脱敏数据的情况。
最后,在权限管理方面,平台提供了非常细粒度的权限管控能力,以满足不同用户对数据访问的多样化需求。
02
数据编织-五大典型应用场景
接下来,让我们深入探讨数据编织的几个典型应用场景。
首先,面对企业内已拥有成熟大数据体系但业务人员难以灵活获取所需数据的挑战,数据编织提供了解决方案。在业务自助用数的场景下,业务人员常常面临数据分散于数仓、数据湖、及各类查询引擎等不同数据源,导致取数难的困境。通过数据编织,我们可以轻松实现这些分散数据的灵活集成与处理,满足业务人员的多样化数据需求。
其次,当数仓中的数据并非业务真正所需,或业务需要根据不同场景进行进一步数据处理与加工时,数据编织平台同样能够发挥重要作用。它助力业务人员便捷地完成最后一公里的数据处理与加工工作,确保数据精准满足业务需求。
对于拥有多个大数据平台或数据仓库的大型企业而言,数据编织在跨数仓数据融合与共享方面展现出独特优势。它无需搬运数据,便能轻松实现跨数仓的数据整合,显著降低数据融合难度,提升数据共享效率。
针对传统制造业企业或跨国企业面临的跨地域、跨多云数据使用难题,数据编织同样提供了有效解决方案。它让分析人员无需关注数据所在的地域或云环境,即可便捷地访问和使用数据,实现跨地域数据的无感使用。
此外,在数据安全与管控要求严格的企业中,如银行等金融机构,数据编织也发挥着重要作用。它统一收口数据消费端,实现数据消费侧的安全管控。通过监控和拦截危险行为,以及进行访问审计等措施,确保数据安全无虞。
最后,对于尚未建立数仓但拥有众多业务库并希望开展大数据业务的企业而言,数据编织同样是一个理想的选择。基于逻辑数仓的架构,它能够帮助企业以低成本快速落地数据业务,满足其大数据需求。
1.场景一:业务自助用数
让我们聚焦业务自助用数的典型实践,以招商银行为例进行深入剖析。招商银行在这一领域展现出几个显著特点。
首先,其数据量极为庞大,部分单表数据规模甚至达到 2000 亿至 3000 亿条记录。同时,数据来源也相当复杂多样,涵盖了数据湖、数据仓库以及分析型集群等多个大数据技术平台和工具。这种分散的数据环境往往导致数据孤岛化现象,给上层业务的数据使用带来不便。
此外,由于数据链路冗长,数据的时效性也受到了严重影响。为了解决这一问题,招商银行在中间层引入了创新方案。这一方案使得数据消费侧能够直接连接数仓或数据湖获取所需数据,无需再像以往那样将数据导入到 Kylin 或 ClickHouse(CK)等特定大数据分析引擎后再进行消费。
更为便捷的是,该方案还允许招商银行继续使用其 Kylin 中的历史数据,而无需将这些数据完全迁移到新平台。同时,新数据可以直接从数仓或数据库中提取并供给业务端使用。通过这种方式,招商银行实现了面向数据消费侧的敏捷数据准备方案,极大地提升了业务 IT 人员或业务人员使用数据的便捷性。
综上,招商银行的这一实践不仅解决了数据分散和孤岛化问题,还显著提高了数据的时效性和可用性,为业务自助用数树立了典范。
上图展示了部分落地效果。在数据编织的实践过程中,我们整合了大量原始数据,供业务使用。同时,确保了查询性能维持在相对理想的响应范围内。在这一场景下,我们成功实现了 90% 的查询请求在 1 秒内完成,展现了出色的查询效率。
2. 场景二:跨平台大规模数据融合和共享
第二个场景聚焦于企业内部拥有多个数据仓库的情况,尤其是当不同子公司各自拥有独立数仓时,集团层面在数据使用上常会面临挑战。关键在于如何高效集成这些分散在不同数仓中的数据,并实现快速的数据共享。特别是在集团需要进行跨公司、跨部门的数据融合分析时,传统方案往往显得力不从心。
由于数据量大,再搭建一个集中式物理仓库不仅成本高昂,而且难以实现。同时,业务需求的多样性也要求我们不能简单地将数据从一处同步到另一处。例如,集团用户可能需要某子公司的数据,而另一业务部门则可能需要集团或其他子公司的数据。这种网状的数据复制需求显然不切实际。
在这种情况下,数据编织成为了一个相对可行的解决方案。它能够实现数据的共享,而无需进行复杂的数据复制和同步操作。
此外,当数据量达到上百亿级别时,如何在保证高性能的前提下进行跨子公司的交叉分析也成为了亟待解决的问题。数据编织在此类场景中同样能够发挥重要作用,助力企业实现高效的数据整合与分析。
在这个特定场景下,解决方案的核心在于在不同数据湖或数据仓库之上构建逻辑数据编织层。这一层通过虚拟化引擎,为各业务子公司或业务应用方提供便捷的数据消费途径。数据编织层在这里起到了关键的桥接作用,通过逻辑整合,将企业各子分公司的数据整合到一个统一的平面上,并提供统一的数据查询服务。
值得一提的是,该方案还具备多租户能力,使得不同子分公司能够自主管理其数据。它们可以控制哪些数据资产开放给其他消费方使用,或者选择消费哪些数据。这种管理方式确保了各子分公司对其数据资产拥有充分的开放与引用管控权。
最后,在查询性能方面,通过采用加速、下推等多种策略的组合,该方案能够在数据规模庞大的场景下依然保持出色的查询性能。这为企业提供了高效、稳定的数据服务,满足了其日益增长的数据需求。
3. 场景三:跨云、跨地域联合分析和查询
在当前的商业环境中,跨地域的联合分析已成为众多企业面临的一大挑战。许多企业在处理海外数据时,常常需要跨越地域限制,例如访问位于欧洲的数据中心数据。传统的解决方式通常是连接到欧洲的机房,对数据进行加工和处理,然后再手动下载这些数据,或者通过其他方式将数据传回国内进行进一步的分析。
然而,这种场景下的效率问题显而易见。企业需要花费大量的时间和精力来完成数据的下载和传输,而且在这个过程中还可能面临数据丢失或损坏的风险。此外,如果数据量较大,使用 Excel 等工具进行处理也会变得非常困难和不切实际。
因此,企业急需一种更高效、更可靠的跨地域联合分析方案,以解决当前面临的种种问题。
针对跨地域联合分析的难题,我们提出了一种创新的解决方案。
首先,我们在中心站点(如中国总部)部署一个完整的逻辑数据编织平台。同时,在跨地域的机房内部署虚拟化引擎节点,以此构建我们的全球数据网络。
当用户需要查询北美、欧洲或国内的数据时,他们无需关注数据的实际存储位置。我们的编织引擎会自动拆解查询执行计划,并将执行过程下推到相应的数据节点。对于用户而言,这就像一个本地数据库一样方便,无需关心数据的地理分布。
此外,我们的方案还具备强大的数据访问控制和敏感数据隔离功能。例如,对于欧洲的数据,由于 GDPR 等法规的限制,敏感数据不允许出域。我们在欧洲节点上对敏感表或字段进行敏感等级配置,确保业务用户在查询时,敏感数据不会泄露。同时,数据在出域前会进行加密处理,进一步增强数据安全性。
我们的方案还具备完善的审计功能,能够记录用户何时、何地、以何种方式访问了哪些数据。这些访问日志和查询请求记录为企业的数据安全提供了有力保障。
更重要的是,该方案能够灵活应对不同地域的合规限制,既可以满足本地的合规要求,又能够方便业务人员使用数据。通过这一方案,企业可以轻松实现跨地域的数据整合和分析,为业务决策提供更加全面和准确的数据支持。
4. 场景四:打造统一的数据消费安全网
在当今企业环境中,跨部门协作已成为常态,而数据的安全管理则显得尤为重要。许多企业面临着数据量大、分布广泛以及敏感数据保护等挑战。传统的数据消费方式往往存在安全隐患,例如,不同的 BI 工具或 AI 处理系统直接连接到数据库,而安全策略则基于各个数据仓库或数据库引擎进行配置。
这种网状的安全策略配置方式带来了诸多问题。随着数据消费端的增多和数据提供方的多样化,安全管控的难度急剧增加,数据泄露的风险也随之上升。特别是对于同一用户在不同数据库(如 a 库和 b 库)的访问权限,理论上应根据数据的敏感等级实施统一或一致的安全管控策略。然而,由于数据源的不同和安全策略配置的差异,现实往往很难实现这一目标。
为了解决这一问题,我们需要一种统一的数据消费侧安全方案。该方案应能够整合各个数据仓库和数据库引擎的安全策略,实现统一的安全管控。通过集中管理和配置安全策略,我们可以确保数据在消费过程中的安全性和合规性,降低数据泄露的风险。
同时,该方案还应具备灵活性和可扩展性,以适应企业不断变化的业务需求和数据环境。通过采用先进的技术和工具,我们可以构建一个高效、安全的数据消费环境,为企业的发展提供有力支持。
借助逻辑数据编织层,我们无需将所有数据集中管理以确保数据安全。这一层仅作为数据访问路径上的统一数据服务入口,所有数据消费方只需连接至逻辑层即可。
对于数据提供方而言,无论数据源自哪个库或表,都可在安全服务管控层统一配置安全方案,包括脱敏方案、权限设置等,无需在每个数据库上针对每个用户分别配置安全策略。通过这种方式,我们成功地将原本复杂的网状安全管控简化为点对点的模式,从而实现了更高效、更可靠的数据安全管控解决方案。
这一改进不仅提升了数据管理的便捷性,还显著增强了数据的安全性。通过逻辑数据编织层,我们能够更好地保护敏感数据,防止数据泄露,并确保数据在合法、合规范围内使用。
5. 场景五:0-1 搭建企业逻辑数仓
在我们已投产的客户中,从零到一搭建企业逻辑数仓的场景颇具代表性。特别是对于那些传统的制造企业和医疗机构,他们常面临一系列挑战。
首先,这些企业的业务系统往往错综复杂,包含各种 MES 系统和其他业务系统。这些系统相互孤立,导致数据难以统一集中管理。数据分散在各个业务系统中,形成了一座座数据孤岛。
其次,数据口径的不一致也是个大问题。在没有完善的数据解决方案之前,企业通常会选定一个目标数据库,如传统数据库,并尝试将需要分析的数据导入该库进行处理。虽然这看似是个可行的方案,但其限制颇多。并非所有业务人员都能胜任数据导入的工作,因此,现状是业务人员不得不连接到不同的业务库进行数据处理,这很容易导致数据口径的不一致。
当这种场景增多时,问题便逐渐显现。例如,在追溯某个数据口径时,可能会发现 A 库与 B 库的结果不一致。为了找出原因,业务人员需要深入各个库去分析数据加工逻辑,才能判断出口径为何不同。这不仅耗时费力,还容易引发数据混乱和误解。
因此,从零到一搭建一个统一、高效的企业逻辑数仓显得尤为重要。这不仅能够解决数据孤岛和数据口径不一致的问题,还能为企业的数据分析和决策提供有力支持。
传统数仓方案确实能够解决数据孤岛和数据口径不一致等问题,但其痛点也不容忽视。
首先,传统数仓方案要求所有数据物理集成集中。这意味着需要搭建大数据平台及相应的大数据处理引擎,这无疑增加了技术复杂度和成本。为了实现数据的集中管理,企业需要投入大量资源在大数据平台的计算与存储上,并且随着业务场景的增多,这些投入还会持续增长。
其次,传统数仓方案将数据处理与消费过程分为两个阶段,由两拨不同的人来完成。一拨人擅长数据处理但不懂业务,另一拨人懂业务却不知如何处理数据。这种分工导致沟通成本增加,效率低下,且难以保证数据处理的准确性和业务需求的满足。
对于许多制造型企业和医疗机构来说,他们可能无法像大公司或互联网企业那样拥有完善的组织配备。因此,传统数仓方案对他们来说可能并不适合。这些企业需要一种更灵活、更高效的数据解决方案,以适应其特定的业务需求和技术环境。
当我们探讨逻辑数仓方案时,其与传统数仓方案的核心差异何在?让我们通过上图来直观理解。
逻辑数仓方案通过逻辑数据编织平台搭建,其源集成层与传统数仓的 ODS 层在数据同步方面看似相似,实则大相径庭。传统方案倾向于将所需数据表同步至 ODS 层,无论这些表是否被实际使用。例如,若上游数据库有 1 万张表,而实际业务可能仅涉及 2 千张表,传统方案可能会选择同步这 2 千张表至 ODS 层。
然而,逻辑数据编织方案则采用截然不同的策略。它首先将这 1 万张表全部集成至逻辑层,使这些表在逻辑上变为可用状态,可供业务人员随时查询。随后,根据业务需求,再加工 DWD 层数据。值得注意的是,在逻辑数据编织平台中,ODS 层是纯虚拟化的,无需同步数据。
当进入 DWD 层时,由于已知模型构建方式,我们建议使用逻辑表结合投影的方式,将 DWD 层数据物理化存储,甚至按历史保存。而往上至 DWS、ADS、ADM 等应用层的数据处理,我们仍建议保持逻辑层状态,除非遇到特定场景,如报表性能要求高或逻辑复杂、数据量大,需要加速处理以满足性能需求,这时才需要将相应的逻辑表进行物化。
因此,与传统数仓方案相比,逻辑数仓方案在物理层面调度的作业或保存的物理表数量上大幅精简。它以一种更为高效、灵活的方式解决了传统数仓所面临的挑战,实现了数据的统一管理与分析。
03
AIoudata 产品矩阵
除了 AIoudata AIR 逻辑数据编制平台,我们还有另外两个同样出色的产品:BIG 和 CAN,它们与 Air 共同构成了 AIoudata A、B、C 系列。
首先来介绍一下 AIoudata BIG,这是一款基于算子级血缘的元数据平台,它能在企业内部解决端到端的数据血缘问题,甚至能够跨越不同的数仓和大数据平台,实现全面的血缘追踪。
AIoudata CAN 则是一个自动化的指标平台,它采用语义化的方式来定义数据和原子指标。通过该平台可以灵活地自动化生产各类指标,极大地提高数据处理的效率和准确性。
无论是 AIR、BIG 还是 CAN,我们的每一款产品都致力于为企业提供高效、智能的数据解决方案,助力企业实现数据驱动的发展。
04
Q&A
Q1:AIoudata 在 AI 场景上面会考虑哪些功能的特性和解决方案?
A1:在我们三款产品的应用场景中,AI 场景无疑是一个亮点。在数据编织领域,我们已经与 AI 结合,为客户提供了创新的解决方案。
有些客户利用 AI 来解决数据查询和使用的问题,而我们的数据编织引擎则在这些场景中发挥了关键作用。它作为底层技术,连接各个数据源,为AI提供全面、准确的数据支持。
此外,当数据规模庞大、查询复杂时,查询性能往往会成为瓶颈。这时,我们的产品中的查询加速功能便显得尤为重要。通过优化查询流程和技术手段,我们有效提升了查询效率,确保了数据的快速响应和准确分析。
综上所述,无论是在数据编织、AI 支持还是查询加速方面,我们产品都展现出了卓越的性能和广泛的应用前景。
Q2:如果使用数据编织平台跟很多企业现已存在的数据平台之间是什么关系?
A2:在企业已经存在数据平台的场景中,数据编织平台往往扮演着下游消费层黏合剂的角色。它主要帮助企业解决传统数据平台中加工数据的不稳定性问题,特别是那些应用层数据,往往因业务口径或场景的变化而频繁变动。
对于这部分不稳定的数据,我们并不推荐在数据中台中进行处理,而是建议将其放在数据编织平台中进行处理。原因在于,数据中台更适合加工稳定类型的资产,如核心模型的加工,这些资产需要保障质量和稳定产出。而消费侧的数据则往往更加灵活多变,有时甚至今天用了明天就不用了。
逻辑化是处理这类数据的一种非常好的方式。它带来的好处之一是,虽然加工了很多逻辑表,但这些表只是逻辑上存在,并不占用物理存储和计算资源。同时,这些逻辑表可以交给业务人员进行处理,无需专门数据中台人员介入。
此外,我们的数据编织平台还具备智能加速和加速回收的能力。当逻辑表的查询性能较慢时,可以进行加速处理。而这些加速所需的存储和调度资源,在表未被使用时会自动回收,无需使用者关心。
因此,数据编织平台与传统数据平台之间形成了良好的互补关系。传统数据平台专注于稳定资产的加工和产出,而数据编织平台则灵活处理消费侧的不稳定数据,通过两者结合,可共同构建高效、智能的数据处理与消费体系。
Q3:RP 投影是什么原理?数据又是怎么同步的
A3:在我们产品中,投影(全称 Rational Projection,关系投影)扮演着至关重要的角色。它究竟是什么呢?让我们通过一个生动的例子来解释。
以前,业务小伙伴在使用数据时,通常依赖 ETL 工程师加工好的表。但当他发现数据无法满足需求或者数据查询缓慢时,就不得不向 ETL 工程师提出需求,请求对数据进行再次清洗、加工,或者导入到 OLAP 引擎以加快查询速度。这个过程繁琐且耗时。
而现在,有了投影机制,一切都变得简单多了。用户只需在我们的产品上勾选想要加速的表格和字段,RP 便会自动处理剩下的工作。它会自动生成 ETL 作业、创建物理表、管理调度依赖,甚至根据用户设定的频率自动调度。
这正是我们称之为 NoETL 的重要原因。投影就像是一个智能助手,它根据用户的查询逻辑和数据获取需求,自动生成加工逻辑,无需用户手动操作。用户只需通过逻辑表的查询 SQL 表达自己的需求,投影便能理解并满足。
总之,投影机制使得数据处理变得更加高效、智能和便捷,为用户提供了前所未有的使用体验。
Q4:场景五中涉及到 DWS 和 ADS 的虚拟化,这会对上层消费应用的查询效率产生较大影响吗?有哪些相应的优化措施可以采取呢?
A4:在探讨 DWS 和 ADS 虚拟化的场景中,大家可能会担心这会对上层消费应用的查询效率产生较大影响。但实际上,这种担忧并不必要。
在我们的逻辑数据编织平台中,我们已经能够通过编织技术集成性能卓越的 OLAP 引擎。特别是在场景五中,该场景基于我们的 AIoudata 编织平台构建数仓。我们推荐的方案是,在数仓的 DWD 层进行加速处理,而之上的层级则无需加速,直接进行查询即可。
为什么这种方案能够提升查询性能呢?关键在于,用户的查询请求会被智能地路由到性能更佳的 OLAP 引擎上执行。因此,用户无需再将数据导出或进行进一步的加工处理。当然,如果在某些特殊情况下,查询速度仍然较慢,我们可以考虑创建一个投影(关系投影)。创建投影后,用户无需修改原有的查询语句,系统会自动进行改写,从而显著提升查询性能。
综上所述,DWS 和 ADS 虚拟化并不会对上层消费应用的查询效率产生负面影响,反而能够通过智能路由和加速处理等手段,提升整体的数据处理效率。
Q5:在涉及分库分表的场景下,多源数据的逻辑集成层是否能够识别并整合来自不同库、不同表的数据,将它们集成到一张表中呢?
A5:在数据处理领域,分库分表是一个常见的场景。面对这一挑战,多源数据的逻辑集成层必须具备识别并整合来自不同库、不同表数据的能力,这是其最基本且必须解决的问题。
在很多实际应用中,不仅存在分库分表的情况,还可能遇到表的字段含义不一致的问题。为了解决这些问题,我们采用了以下解法:
首先,通过逻辑集成层,我们将这些分散的数据集成进来,形成一个逻辑贴源层。在这个贴源层中,数据保持其原始形态,但已被整合到一张逻辑表中。
接着,在贴源层之上,我们开始构建 DWD(数据仓库层)的逻辑表。在这一层,我们将 DWD 里的逻辑表映射到不同库的不同表上,通过智能的映射和合成技术,最终将这些分散的数据整合成一张完整的逻辑表。
这个过程不仅解决了分库分表带来的数据整合难题,还确保了数据的准确性和一致性。通过我们的逻辑数据编织平台,用户可以轻松应对各种复杂的数据处理场景。
以上就是本次分享的内容,谢谢大家。
来源:DataFunTalk