它们都是用于将数据从一个源传输到数据仓库的数据集成方法。尽管他们的方法的目的是相似的,但它们是不同的。
什么是 ETL?
ETL 是将来自多个来源的数据移动到一个集中的单一数据库的过程。原始数据从源中提取,在单独的处理服务器上转换并加载到目标数据库中。
之所以Transform发生在Load之前,是因为提取出来的数据需要符合目标数据库的数据规则。例如,有些数据仓库只能接受基于 SQL 的数据结构。
ETL 方法在某种意义上确保了合规性,即提取的数据以正确的数据形式转换到目标数据库。如果提取的数据没有正确转换,将无法成功移动和加载到数据仓库中。
什么是 ELT?
ELT 不需要为了加载原始数据而进行转换。原始数据被加载到数据仓库中,并在数据仓库中进行转换、数据清洗等目的。
由于数据以原始格式保留在数据仓库中,因此可以进行不同类型的转换和分析。
ELT 对于科技行业来说是相当新的事物,其发展得益于可扩展的基于云的数据仓库。因此,随着时间的推移和越来越多的公司采用云基础设施,您可以看到 ELT 流程也变得越来越流行。
ETL与ELT流程比较
| ETL | ELT | |
| 发现 | 已存在 20 多年 | 数据集成方法相当新 |
| 提炼 | 使用 API 连接器提取原始数据。 | 使用 API 连接器提取原始数据。 |
| 转换 | 原始数据在辅助处理服务器上进行转换。 | 原始数据在目标数据库内部进行转换。 |
| 加载 | 原始数据在加载到目标数据库之前必须进行转换。 | 原始数据直接加载到目标数据库中。 |
| 时间 | 数据转换导致ETL过程花费大量时间 | 数据转换是并行完成的 - 使其时间有效 |
| 隐私 | 在加载数据之前对其进行预转换可以消除个人身份信息 (PII) | 这需要更多的隐私标准 |
| 费用 | 使用二级处理服务器会增加成本 | 由于简化的数据堆栈,成本更低 |
| 数据结构 | 结构化的 | 可以是结构化的、半结构化的和非结构化的 |
| 数据大小 | 通常用于较小的数据集 | 通常用于较大的数据集 |
| 数据集需求 | 复杂的转型 | 速度和效率 |
| 重新查询 | 因为数据在进入目标数据库之前已经转换过了,所以不能重新查询。 | 是的,因为它还没有被改造 |
| 数据湖兼容性 | 不 | 是的 |
相关帖子DA内容精选
|


雷达卡



京公网安备 11010802022788号







