弗氏黄脚黑鳄背:选择合适的ETL工具

来源:百度文库 编辑:偶看新闻 时间:2024/04/28 18:41:26
选择合适的ETL工具 ■ 黄予辉 目前,商业智能系统有两种实施策略: 一种是将BI系统建造在目前已有的业务系统之上,以企业应用集成(EAI)系统为核心,将各个业务系统的独立数据统一成标准数据格式(如XML),然后,由BI系统进行整合、分析、展现。此类BI系统通常是与EAI系统捆绑在一起的,其架构读者可通过EAI系统的相关资料进行了解,此处将不做讨论。 另一种是将BI系统建立在企业级的数据仓库基础上,由数据仓库将企业的业务数据统一存储在企业逻辑数据模型架构中,然后,通过在数据仓库基础上建立逻辑或物理的数据集市、数据决策系统、数据在线分析系统等子系统,完成数据的整合、分析,然后由前端展现工具对已有的数据(原始数据、整合数据)进行汇总及展现。由于此类BI系统可以分步实施,用户可逐步建立其BI系统,所以成功率比较高。以目前已有的商业智能系统来看,此种架构将成为商业智能系统发展的主流。以下的讨论将以此种架构为基础。 在企业级的以数据仓库系统为中心的商业智能系统中,其组成架构包括以下几部分: ● 源数据系统 ● 可操作数据存储系统(ODS) ● 数据决策系统(DDS) ● 在线分析系统(OLAP) ● 前端展现工具 ● 元数据系统 商业智能系统运行的基础是互相独立、互不兼容的、复杂的源数据系统,各个源数据系统是企业在不同的历史时期建立的,面向不同业务需求的生产系统。因此,依照合理的方式整合源数据系统,将源数据统一存储在以企业逻辑模型构建的ODS系统中,DDS、OLAP、前端展现工具依照用户需求,对数据进行汇总、展示,并按照用户喜好的方式,将结果展现在用户面前是商业智能系统的基本任务。由于企业业务系统的复杂性,各个源数据系统的数据结构、格式、定义各不相同,为了能有效的整合企业数据系统,保持数据的一致性,并将数据统一地展现在客户面前,ETL解决方案是用户唯一的选择。 ETL解决方案包括数据抽取(E)、数据传输、转换与清洗(T)、数据加载、调度(L),毋庸置言,ETL系统将贯穿整个商业智能系统的全过程,如图所示,从源数据系统到前端展示系统的整个商业智能系统各个组件之间,都存在ETL过程。 ETL方案对整个商业智能系统的重要性可与血液与人体的作用相提并论,一个有效的ETL处理方案将是系统成功的首要因素。 ETL方案的选择应考虑以下方面: ● 数据操作效率; ● 数据操作时间周期; ● 定制的灵活性。 对ETL来说,数据操作的效率是最重要的考虑因素。对效率的考察,应包括以下几点: 1. 是否支持复杂的数据操作; 2. 是否支持多任务并行操作; 3. 是否符合系统对数据处理时间窗口的要求。 数据操作时间周期的支持包括: 1. 是否支持各种数据处理时间周期的混合操作; 2. 是否支持数据的小批量持续加载; 3. 是否支持数据的大批量定时加载。 定制灵活性包括: 1. 是否支持数据依赖的建立; 2. 是否支持数据流的建立; 3. 是否支持操作定时启动; 4. 是否可扩展; 5. 开发环境是什么,开发是否简单、灵活。 对于ETL流程的建立,通常有以下两种方式: ● 利用数据库系统、业务子系统工具自行开发 ● 购买现成的ETL工具 通常情况下,ETL方案中,以上两种方式是同时存在的。一般情况下,利用各个子系统提供的工具进行自行开发,可充分利用子系统的优化操作,提高数据处理效率,但其灵活性和可扩展性欠佳;购买现成的ETL工具(如EAI、Informatic等厂商的ETL工具),可灵活定制数据处理流程,简化数据开发,缩短ETL方案实施周期,但其处理效率较低。因此,建议读者应结合以上的ETL建立方式,在保证ETL性能的前提下,购买合适的ETL工具。(本文作者为NCR Teradata数据仓库事业部技术顾问)