个性化阅读
专注于IT技术分析

ELT测试:ETL和ELT之间的区别

本文概述

ETL

当我们将数据从源系统传输到数据仓库时, ETL是最常用的方法。提取, 转换和加载是一个过程, 涉及从外部源中提取数据并对其进行转换以适合运营需求, 然后将其加载到目标数据库或数据仓库中。当我们为数据仓库使用不同的数据库时, 使用这种方法是合理的。

在这种情况下, 我们必须将数据从一个地方转换到另一个地方, 因此这是在专用引擎中完成转换工作的一种适当方法。

提取, 加载和转换是一个提取数据并将其加载到数据库中的登台表中的过程。将其加载到登台表后, 将其转换为在数据库中的位置, 然后将其加载到目标数据库或数据仓库中。

ETL要求对原始数据进行管理, 其中包括提取所需信息并运行转换以满足业务需求。提取, 转换和加载等每个阶段都需要数据工程师和开发人员进行交互, 并处理传统数据仓库的容量限制。使用ETL, BI用户和分析人员变得习惯于等待, 直到完成整个ETL过程, 才可以简单地访问信息。

ETL和ELT之间的区别

ELT

在ELT方法中, 提取数据后, 我们立即开始加载阶段, 将所有数据源移动到单个集中式数据存储库中。随着当今的基础架构技术正在使用云, 并且系统现在可以支持大型存储和可伸缩计算。因此, 一个庞大的扩展数据池和快速处理对于维护所有提取的原始数据几乎是无止境的。

这样, ELT方法提供了ETL的现代替代方案, 但是在某些情况下, 我们需要使用ELT。在各种情况下, 应使用ELT代替ETL:

  • 当数据量很大时使用ELT。
  • 当源数据库和目标数据库都相同时。
  • 当数据库引擎在ELT的帮助下非常适合处理诸如PDW之类的数据时, 很容易非常快速地加载大量数据。
ETL和ELT之间的区别

注意:当我们使用ETL时, 转换是由ETL工具处理的, 而在ELT中, 转换是由目标数据源处理的。

ELT的工作

提取, 加载和转换是从无限来源收集信息, 将信息加载到处理位置并将其转移到可操作的商业智能中的过程。

  • 提取:从不同的数据源中提取数据, 这两种数据管理方法的工作原理相似。
  • 负载:ELT将整个数据传递到将要存在的站点。 ELT缩短了提取和交付之间的周期, 但是在数据变得有用之前, 还有很多工作要做。
  • 转换:这里, 数据仓库和数据库对数据进行排序和规范化。存储此数据的开销很高, 但是它带来了更多机会。

ETL和ELT之间的区别是

参数 ETL ELT
Process 数据在登台服务器中传输, 然后移动到数据仓库数据库。 数据保留在数据仓库的DB中。
Transformation 转换在ETL服务器和登台区域中完成。 在过渡区域中执行转换。
代码用法 ETL用于:少量数据计算密集型转换。 ELT用于:大量数据。
Load-Time 首先, 将数据分阶段装入, 然后再装入目标系统。这是一个耗时的过程。 在ELT中, 数据仅在目标系统中加载一次。在此过程中花费的时间更少。
Transformation-Time ETL过程需要时间才能完成转换。随着数据大小的增加, 转换时间也会增加。 在ELT过程中, 速度决不取决于数据的大小。
Maintenance-Time 当我们选择要加载和转换的数据时, 它需要很高的维护。 ELT不需要维护, 因为数据一直可用。
实施复杂性 在ELT中, 更容易在早期阶段实施它。 要实施ELT流程, 组织应该对专家技能和工具有深入的了解。
数据湖支持 ETL不支持Data Lake。 ELT允许将Data Lake与非结构化数据一起使用。
支持数据仓库 ETL模型用于关系和结构化数据。 可扩展云基础架构中使用的ELT支持结构化和非结构化数据。
Complexity ETL过程仅加载在设计时确定的基本数据。 ELT仅涉及从输出向后的开发, 并且仅加载相关数据。
Cost 在ETL流程中, 中小型企业的成本很高。 ELT包括使用在线软件作为服务平台的低进入成本。
LookUps 在ETL过程中, 需要在过渡区域中提供维度和事实。 在ELT中, 所有数据都是可用的, 因为提取和加载是一个单一的动作。
Calculations 在ETL中, 现有列将被覆盖, 或者需要追加数据集并将其推送到目标平台。 在ELT中, 很容易将列添加到现有表中。
Hardware 在ETL中, 这些工具具有独特的硬件要求, 这很昂贵。 ELT是一个新概念, 实现起来很复杂。
支持非结构化数据 ETL支持关系数据 ELT有助于获取非结构化的随时可用数据。

ETL何时是正确的选择?

这取决于公司现有的网络体系结构, 预算以及已经在使用云和大数据技术的程度。但是, 当三个重点领域中的任何一个或全部都至关重要时, 我们可以考虑使用ELT。

优先考虑摄取速度

当优先考虑摄取速度时, 我们必须使用ELT。因为ELT不必等待数据在站点外工作然后再加载(在这里, 数据的加载和转换可以并行进行)。在这里, 提取过程更快, 并且可以提供比ETL更快的原始信息。

什么是更好的英特尔

将数据转化为商业智能的优势在于能够将隐藏的模式转化为可操作的信息。通过保留所有历史数据, 组织可以挖掘时间轴, 销售模式, 季节性趋势或任何新兴指标, 这对于组织而言至关重要。在这种情况下, 我们可以访问原始数据, 因为数据在加载之前没有进行转换。通常, 在云数据湖中, 原始数据将被存储, 然后进行精炼或存储处理后的信息。例如, 数据科学家更喜欢使用原始数据的访问, 而业务用户则更喜欢使用规范化的数据进行商业智能。

当我们知道我们需要扩展时

当我们使用云数据仓库或Hadoop等高端数据处理引擎时, ELT可以利用本机处理能力的优势来实现更高的可扩展性。 ETL和ELT都是省时的方法, 可从原始数据中产生商业智能。但是云正在改变企业使用所有技术应对ELT挑战的方式。

结论

ETL代表提取转换和加载, 而ELT代表提取加载和转换。在ETL中, 数据从源流到阶段, 然后流到目标。在ELT目标系统中进行转换。分级系统不涉及ELT。在ELT中, 我们面临许多挑战, 但代价昂贵, 并且需要出色的技能来实施和维护。


赞(1)
未经允许不得转载:srcmini » ELT测试:ETL和ELT之间的区别

评论 抢沙发

评论前必须登录!