教育行业A股IPO第一股(股票代码 003032)

全国咨询/投诉热线:400-618-4000

大数据培训:ETL常见工具介绍

更新时间:2022年07月20日16时21分 来源:传智教育 浏览次数:

好口碑IT培训

  目前比较流行的ETL工具有Pentaho Kettle、Hawk、Informatica PowerCenter及DataStage,对这些工具的介绍如下。

  1.Pentaho Kettle

  Pentaho Kettle是一款国外免费开源的ETL工具,纯Java语言编写,可以在Windows、Linux、UNIX系统上运行,并且是绿色无需安装的。

  Kettle的中文名称叫水壶,该工具的设计理念是希望把来自不同数据库中的数据放到一个“壶”里,然后以一种指定的格式流出。Kettle拥有两种脚本文件,分别是Transformation(转换)和Job(作业),其中Transformation是用于完成数据的基础转换,而Job是完成整个工作流的控制。

  2.Hawk

  Hawk是一种数据采集和清洗工具,依据GPL(GNU通用公共许可证)协议开源,基于C#语言编写的,并且其前端界面使用WPF开发,支持插件扩展。

  Hawk的含义为“鹰”,能够高效、准确地捕杀猎物。也就是说,Hawk能够灵活、有效地采集来自网页、数据库和文件等来源的数据,并通过可视化的拖曳操作快速地进行生成、过滤及转换等操作。Hawk主要应用于爬虫和数据清洗等领域。

  3.Informatica PowerCenter

  Informatica PowerCenter是Informatica公司开发的世界级的企业数据集成平台,也是业界领先的ETL工具。Informatica PowerCenter用于访问和集成几乎任何业务系统、任何格式的数据,它可按任意速度在企业内交付数据,具有高性能、高可扩展性、高可用性的特点。Informatica PowerCenter提供了多个可选的组件,以扩展Informatica PowerCenter的核心数据集成功能,这些组件包括数据清洗和匹配、数据屏蔽、数据验证、元数据交换等。

  4.DataStage

  IBM的InfoSphere DataStage简称DataStage,它是一个领先的ETL平台,可跨多个企业系统集成数据。DataStage利用高性能并行框架,可根据项目需求在云中或者本地部署ETL环境,它支持HBase、Hive、Amazon以及MongoDB等数据库的连接,可以灵活、有效地更新和管理数据继承的基础架构。

0 分享到:
和我们在线交谈!