ETL的新兴趋势超越大数据

大数据

专注于前沿大数据案例资讯

随着分析技术面临数据量迅速增长的挑战,有人担心传统的提取、转换和加载过程(ETL)是否依然适用。

ETL工具可以快速“入侵”移动App和Web应用程序,因为它们可以非常有效地访问数据。最终,ETL应用将积累行业标准并得以壮大。

本文中我们来讨论一个比较新的话题——能够轻松构建一个敏感的、并且能够使数据仓库变得动态且适应性强的数据模型:DataVault。

企业数据仓库(EDW)系统旨在维持数据驱动型企业的真实商业智能(BI)。公司必须熟知这些重要动态数据中的关键指标。

ETL的挑战

ETL由于传统数据建模而面临的五大挑战有:

EDW、BI系统的上游业务流程或者业务规则需要适应新的变化。

在数量、速度、品种、可视化、真实性和价值6个方面分析业务数据-具有实际技术的大数据,以确保竞争优势。

能够智能应用并具有设计、创造、交付、持续、易于访问能特点的大型存储EDW、BI系统变得越来越复杂。

需要定制数据以满足业务核心业务领域的需求,而不能为所有业务需求都提供统一的简单解决方案。

面对新的不可预知和无计划的来源以及上游流程的影响时缺乏灵活性。

现在,我们来讨论应对上述所有潜在挑战的方案:DataVault混合数据建模的方法。

DanLinstedt将DataVault模型定义如下:

DataVault是面向细节的,可追踪历史的,它是一组有连接关系的规范化的表的集合。这些表可以支持一个或多个业务功能,它是一种综合了第三范式(3NF)和星型模型优点的建模方法。其设计理念是要满足企业对灵活性、可扩展性、一致性和对需求的适应性要求,它是一种专为企业级数据仓库量身定制的建模方式。

DataVault非常优雅、简单且易于执行。它建立在一套多结构和审计规则之上。通过利用datavault原则,你的项目能够轻松满足可审计性、可扩展性和灵活性。

以下规定的标准将帮你构建datavault:

确定业务主键和枢纽表(Hubs);

确定业务主键和连接表(link)之间的关系;

指定围绕业务主键、卫星表(Satellites)的描述;

为解码数据集连接独立因子(比如时间属性和代码描述);

集成查询优化,附加性能表(比如桥接表和时间点(PD)结构模型表)。

建立datavault非常简单,最终将会突破企业集成架构中通常使用到的常规方法。该模型的建立方式还可以根据需求进行有效扩展。

DataVault建模+架构+为上述挑战提供解决方案

“业务灵活性具有根据持续的变化进行自我改善的能力。”

我们来看看datavault如何适应变化。

通过datavault中的业务主键和描述性属性之间的业务主键关联,datavault可以解决环境变化的问题。

将这些主键设置为数据仓库的结构主干,所有关联的数据都可以围绕它们进行组织。这些枢纽表(业务键)、连接表(关联)和SAT(描述性属性)产生适应性很强的数据结构,同时保持强大的数据完整性。特定的链接就像突触(向相反方向的向量)。只要业务关系能够根据需要转换数据模型而自动进行更改而不影响现有的数据结构,就可以创建或删除它们。

接下来让我们来看看datavault如何应对大数据的ETL挑战。

DataVault如何克服大数据的ETL挑战

DataVault将大数据技术和建模、方法、架构和实践融合在一起。随着数据量的不断增大,数据可以很容易地融入到datavault数据模型中,以纳入像Hadoop、MongoDB以及各种其他NoSQL品种的产品中。消除星型模式设计的清洁规范,datavault通过减少耗尽和维持影响大数据系统潜力的相关插入,从而在巨大的数据集上展现优势。

DataVault也可以通过简化来解决复杂性的挑战,我们来一探究竟。

了解了三种核心表格类型(枢纽表、卫星表、连接表)之后,就可以立即实现一个动态的datavault模型。首先要确定业务主键和枢纽表。“枢纽-卫星表”与连接表相连,其模拟源表列可以更改。连接-卫星表也同样可行。

DataVault模型构建完成之后,下一个任务就是通过ETL构建数据集成过程(即从源系统将数据填充到目标系统中)。因此,使用datavault设计,你可以连接数据驱动型企业并实现数据集成。

ETL以其简化的开发流程,降低了开放平台的总成本。ETL同样可以用来填充和维护建立在datavault模型上的强大的EDW系统。

使用DataVault应对挑战

可以通过任何市场上可用的突出的ETL工具来实现。

DataVault通常指定企业的前景、价值观,分析和细化业务领域和关联范围内的关系。在填充星型模式之前必须完成业务规则。通过DataVault,你可以在EDW并入、摄入后,将业务规则下载到下游。另一个datavault的理念是:任何数据都是重要的,即使它看起来不相干。DataVault的理论是获取任何类型(好或坏)的源数据。

该数据模型专门设计用于解决和满足最新EDW、BI系统的绝对需求。DataVault具有足够的灵活性,可以采用新的不可预知的和非计划的来源,而不影响现有的数据模型。

DataVault方法基于SEI、CMMILevel-5流程和实践,并且包括构成六西格玛、全面质量管理(TQM)和SDLC(敏捷)等突出特征的各种组件。DataVault项目具有简短且可观的发布周期,通常采用CMMI5级预期的可重复、定义、可管理、一致和优化的项目。在添加新的数据源时,类似的业务主键和新枢纽表、卫星表和连接表先是被添加,然后才链接到现有的datavault结构,而不会对底层模型产生任何影响。

测试DataVault:ETL、数据仓库追踪

与非数据库ETL程序不同,一般测试策略是使用适合datavault采用的程序。然而,通过使用原始的DataVault加载,我们可以通过允许的负载错误将整个ETL过程中的转换降至最低水平。

ETL、数据仓库测试应当注重如下项目:

源系统的数据质量

数据整合

BI报告的性能、可扩展性、升级问题

以下是为datavault、ETL、DWH项目执行测试时应当坚持的五项基准指标:

设计一个依赖真实数据的小型静态测试数据库,以便快速运行测试用例,从而在早期阶段确定预期的结果。

尽早执行系统测试,以确保ETL接口的连接盒。

使用自动化测试工具:

设置测试环境

恢复虚拟环境

更新静态数据以验证复杂数据

执行ETL,捕获日志并验证不良、拒绝、有效的数据流

测试人员在创建并将真实数据导出到小型测试数据库时需要确保数据分析和数据质量。

以生产环境的标准来模拟测试环境,以减少成本问题。

总结

利用各种创新方法将业务趋势可视化,再加上实质性证据,将会在ETL、大数据业务中发挥巨大作用。

尽管讨论解决挑战的ETL趋势很重要,但还不够。我们需要反思和扩展自动化解决方案,以使用组件库(比如RowGen)为任何ETL需求创建测试数据。

版权说明:感谢每一位作者的辛苦付出与创作,大数据俱乐部将尽量标明每篇文章的来源和作者。如转载涉及版权等问题,请发送消息至公号后台与我们联系,我们将在第一时间处理,非常感谢!

数据工匠专注专业聚焦

Scott

扫一扫下载订阅号助手,用手机发文章赞赏

长按







































北京治疗白癜风得花多少钱
白癜风有哪些什么症状



转载请注明地址:http://www.bittosurfaces.com/xxcyfz/34413.html
  • 上一篇文章:
  • 下一篇文章: 没有了