汇海ETL数据抽取与整合技术白皮书
1. 概述
数据抽取、转换和加载(Extraction-Transf沈阳微信小程序ormation-Loading),是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。汇海ETL数据集成工具是一套对异构数据源进行提取、转化、清洗和加载的数据集成工具。
2. 数据集成与ETL过程自动化
数据集成是把不同来源、格式、特点性质的数据通过ETL过程在物理上有机的整合进行集中性存放,形成规范的数据存储。
在数据集成的过程中,整个流程被切分成许许多多的处理任务:
(1)数据抽取:将数据从业务系统中抽取出来
(2)数据转化/清洗:按照预先设计好的规则将抽取得数据进行转换、清洗,以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来。
(3)数据质量检查:对来源数据和清洗后的数据进行检查,保证加载后的数据的一致性和正确性。
(4)数据加载:将清洗后的数据加载到数据仓库中。
而在ETL过程中,还需要对过程进行自动化。一个完整的ETL过程自动化是指对数据从数据源到数据目的的各个处理任务(如抽取、转换、清洗、异常处理、加载等任务)的运行进行有条不紊的组织,使其自动运行下去的一个闭合的处理逻辑。
汇海ETL将数据集成流程模型分为数据流和控制流两个部分。
数据流是将数据流组件组合的一套按照一定逻辑组成的从源到目标的完整的数据处理过程,数据流的执行过程改变了数据流的内容和形式。
控制流可以被认为是一个简单的工作流模型,由若干个任务构成,这些任务存在依赖和先后关系。目前支持顺序,条件,循环三种逻辑。控制流是将这些任务组织在一起的粘合剂,其本身并不改变数据的内容。任务之间通过转移确定先后关系,并且在转移上设定条件来达到调度整个流程的目的。
数据流除了本身可以独立运行处理数据外,还可以作为一个任务在控制流中进行调度。
3. 主要功能
3.1 设计一个ETL数据流
一个基本的数据流,至少应该包括一个输入适配器和一个输出适配器。输入适配器与输出适配器通过数据连接与外部的数据源进行关联。目前汇海ETL数据集成工具支持的数据连接主要包括:
数据库连接----支持所有主流关系型数据库,并可通过代理模式访问不同网络数据
CI数据连接----汇海CI是汇海经典的网络版报表管理软件。通过CI数据连接使ETL与CI报表软件进行交互
BI数据连接----与汇海BI商务智能软件进行交互
EFDC数据连接----是汇海提供的面向主流财务核算软件的财务数据提取组件
文本数据连接----支持各种平面文本文件
SMTP数据连接----支持邮件系统,是ETL与邮件服务器进行交互
文件数据连接----支持除平面文本文件之外的其他多种文件扩展
FTP服务器连接----用于ETL与FTP服务器进行文件传输
SAP BW服务器连接 支持与SAP BW接口的服务器进行连接
3.2 给数据流增加复杂转换规则
在ETL过程中,数据绝不是简单的从源直接流向目标,而是需要通过一些复杂的转换规则,最终将清洗后的数据加载到目标中去。
3.3 监控数据流中的数据质量
在进行ETL的过程中,需要对数据的提取、转换和加载的数据质量进行监控以保证入库的数据的一致性和准确性。利用汇海ETL数据集成工具中的数据校验任务,配合相应的控制文件,可以方便的对源数据进行监控。
3.4 输出错误日志及错误重定向
“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
热门文章
使用“扫一扫”即可将网页分享至朋友圈。