汇海唯数 ETL数据整合工具
1. 概述
数据仓库就是将数据源的数据进行重新组织、转化和迁移后生成的数据存储。ETL(数据抽取、转换和加载)在数据迁移的过程中扮演着重要的角色。ETL负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。将数据源中的数据,按照数据仓库的规划重新组织,并进行转化、迁移,就是ETL所要解决的事情。经验表明,ETL过程占整个唯数实施工作的70%以上。
汇海唯数ETL是新一代数据抽取、转换和整合工具,具有数据处理效率高、占用资源低、操作简便、所见即所得等特点。该产品提供了大量的数据清洗、转换适配器,支持多种数据源,可以实现物理、逻辑和业务三个层面的数据质量检查及错误重定向,跨防火墙远程分布式数据提取等高级ETL特征,其内置的作业调度引擎可同时管理成千上万个作业有条不紊的自动执行。汇海唯数 ETL还提供了强大的扩展能力,不仅提供了标准的API以扩展产品的功能,还可以集成第三方工具到数据处理任务中,比如Oracel SQL Loader、QQ或MSN之类的即时通信工具等。
2. 产品特征
1. 采用B/S、C/S结合的方式部署。其中服务端负责对ETL流程的调度、管理和执行,客户端负责对ETL流程的建模。支持跨防火墙、跨网段的部署模式。
2. 产品采用纯JAVA技术实现,可以部署到Windows、Linux、Unix、MacOS等多种操作系统和硬件平台中。
3. 模块化设计。产品中的模型以模块的方式注册到工具中,可以方便、快速的进行扩展。第三方厂商也可以利用程序提供的API接口进行二次开发,从而达到定制ETL功能的需求。
4. 公式执行引擎优化。在数据的抽取、清洗和转换过程中,需要大量的公式运算。汇海唯数 ETL采用预编译的模式对公式进行优化,极大的提高了公式执行的效率。
5. 先期的数据预处理技术。数据流执行引擎通过自动分析,可针对不同的场景进行相应的预处理措施。比如引擎可APP软件将多个适配器合并执行;两个输入做关联时可以转化为SQL关联查询进行执行;针对不同数据库提供不同的策略等。
6. 优化的数据流执行引擎。产品针对多种海量数据场景进行的优化处理,利用先进的内存处理技术,使得在海量数据处理时内存消耗的零增长;通过数据的多路通道技术实现处理并行化,充分利用服务器多核CPU计算能力,提高执行效率。
3. 功能简介
1. “所见即所得”的ETL数据处理流程建模。ETL数据处理过程的流程建模完全图形化操作,包括处理节点的增/删、分支处理、分支条件定义、字段映射、转换计算、错误定向,等等,配置过程简洁直观。
图
2. 多数据源的支持。产品提供了主流数据库(如Oracle、SQL Server、DB2等)、文本文件、excel文件以及其他业务系统(如SAP BW)在内的多种数据源的支持。
3. 完善的数据处理流程支持。控制流引擎支持分支、合并、流转、分支转移等工作流的基本特征,对数据执行流程提供了完整的支持。
4. 丰富的数据转换清洗适配器。程序内置了多种数据清洗转换适配器,如计算字段,分组统计,排序,过滤等,通过这些适配器的任意组合,可以处理大部分的数据转换和清洗操作。同时程序还提供了API接口对适配器进行扩展,可根据实际应用场景开发自己的数据处理适配器并插入到产品平台中。
5. 自定义脚本及shell命令调用。产品支持在数据处理自动化流程中调用自定义脚本以及shell命令来满足个性化需求,比如发送邮件、创建新目录,等等。并提供了脚本语法加亮以及代码提示,对于系统维护人员而言,使用起来更容易上手。
6. 结构化的异常处理机制。汇海唯数 ETL提供了日志、错误检查、数据重定向等方式,保证了处理ETL过程中的各种错误数据和程序异常。
7. 强大的流程自动化调度器。通过配置自动化调度方案,支持文件、时间、状态和依赖等多种触发机制,支持多线程容器中自动均衡处理,可实现对成千上万的数据处理任务有条不紊的进行并发调度和自动执行,真正实现数据处理过程的“无人值守”。
“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
热门文章
使用“扫一扫”即可将网页分享至朋友圈。