更新时间:2021年06月08日16时40分 来源:传智教育 浏览次数:
目前比较流行的ETL工具有Pantlo Kertle、Howk、lormi PowerCene及DataStage,对这些工具的介绍如下。
1. Pentaho Kettle
PenthoKetle是一款国外免费开源的ETL工具,纯Java语言编写,可以在Windows Linux.UNIX系统上运行,并且是绿色无需安装的。
Ketile的中文名称叫水壶,该工具的设计理念是希望把来自不同数据库中的数据放到-个“壶”里,然后以一种指定的格式流出。 Ketle拥有两种脚本文件,分别是Transtormtio(转换)和Job(作业),其中Tronsformation是用于完成数据的基础转换,而Job是完成整个工作流的控制。
2. Hawk
Hawk是一种数据采集和清洗工具,依据GPL(GNU通用公共许可证)协议开源,基于C#语言编写的,并且其前端界面使用WPF开发,支持插件扩展。
Hawk的含义为“鹰”,能够高效、准确地捕杀猎物。也就是说,Hawk能够灵活、有效地采集来自网页、数据库和文件等来源的数据,并通过可视化的拖曳操作快速地进行生成、过滤及转换等操作。Hawk 主要应用于爬虫和数据清洗等领城。
3. Informatica PowerCenter
Intormatica PowerCenter 是Informatica公司开发的世界级的企业数据集成平台,也是业界领先的ETL工具。Informatica PowerCenter用于访问和集成几乎任何业务系统、任何格式的数据,它可按任意速度在企业内交付数据,具有高性能、高可扩展性、高可用性的特点。Informatica PowerCenter提供了多个可选的组件,以扩展Informatica
PowerCenter的核心数据集成功能,这些组件包括数据清洗和匹配、数据屏蔽、数据验证、元数据交换等。
4. DataStage
IBM的InfoSphere DataStage简称DataStage,它是一个领先的ETL平台,可跨多个企业系统集成数据。DataStage 利用高性能并行框架,可根据项目需求在云中或者本地部署ETL环境,它支持HBase、Hive、Amazon以及MongoDB等数据库的连接,可以灵活、有效地更新和管理数据继承的基础架构。
猜你喜欢: