图1 数据仓库的体系结构数据源:为数据仓库提供原始数据。可以是外部数据、操作型数据库、管理数据库、生产系统数据库等。这些数据源可以是集中的或分布的、异构的。 数据的存储与管理:是整个数据仓库系统的核心。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照...
显示全部 图1 数据仓库的体系结构
数据源:为数据仓库提供原始数据。可以是外部数据、操作型数据库、管理数据库、生产系统数据库等。这些数据源可以是集中的或分布的、异构的。
数据的存储与管理:是整个数据仓库系统的核心。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据。
OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现数据趋势。
前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。
3银联数据服务平台数据仓库
银联数据服务平台系统又称为基于数据仓库的统计分析系统。它是在整合深圳分公司所有数据包括交易日志、商户资料、ATM终端资料、POS终端资料等的基础上,对数据资源进行充分挖掘、实现多维统计分析功能,给服务对象提供一个开放式(WEB)的资料查询、统计分析、无纸化沟通的平台,让数据真正成为分公司、专业化公司、银行、商户进行市场决策,提高跨行交易质量的重要依据。
3.1系统总体设计
银联数据服务平台统计分析系统实现的是一个基于数据仓库多维数据模型J2EE架构的业务数据分析系统。它所提供的是基于海量历史数据的分析而实现的面向决策支持层、管理层和业务运行层3个层次的功能。根据银行业务功能需求,提出了银联数据服务平台是一个具有三层体系结构的解决方案,如图2。在整个系统设计过程中,有效利用客户现有的软硬件资源,以各类用户关心的统计分析主题为出发点,满足各类业务查询统计的需求,建设了可扩展的、灵活的、开放的、有效的数据仓库系统。同时,通过对业务应用的高度抽象,使得系统结构的复杂度得到很好的控制,保证系统同时具有非常良好的可扩充性和适应性。
系统的后端为数据仓库服务器端,它的功能主要包括数据采集、数据抽取转换以及数据的存储功能。中间层是应用服务器(决策支持分析引擎),实现应用程序与客户交互并实现业务逻辑。前端是集成化的数据分析展现工具,它面向用户实现具体决策分析。本文主要讨论系统的后端的设计。
图2 系统总体设计结构图
3.2数据仓库模型建立与数据组织
数据仓库的建模主要包括建立数据仓库的概念模型,逻辑模型和物理模型。首先,根据业务需求确定系统边界,分析主题域,确定当前需要装载的主题。主题是一个逻辑概念,它应该能够完整、统一地刻画出分析对象所涉及的各项数据以及相互联系,它的确定限定了数据仓库的规模和应用范围。第二,细化主题分析内容并进行数据组织,确定粒度划分和层次划分以及分割策略。这些操作决定着系统的信息量和查询效率,对系统有重要影响。最后,生成数据仓库,设计接口,装入数据。
在后台数据库的设计中,采用星型模型多维数据分析模型。利用这种模型可以很好地完成以主题分析为主的数据库设计,从而理清金融行业数据库中纷繁杂乱的海量数据。为客户从各个维度观察数据打下坚实的后台数据基础。按照银联业务需求,数据服务平台主题举例如下:
ATM交易分析
分析ATM交易数据,包括:交易总笔数、系统成功数、收单成功数、交易成功笔数、成功交易金额、取款金额、取款笔数、转帐笔数、转帐金额、调帐笔数、调帐金额、交易成功率、收单成功率和调帐率。
用户可根据需要选择按如下维度:发卡行、代理行、转入行、ATM终端、交易日期、清算日期、卡种、交易代码、交易时间。
POS清算分析
分析POS清算数据,包括:清算笔数、清算金额、商户回佣、发卡方收入、深圳银联收入、发卡方固定回佣、银联固定回佣,收单方回佣、调帐笔数、调帐金额、调帐回佣、调帐银行回佣、实际清算金额、实际清算回佣。
用户可根据需要选择按如下维度:发卡行、代理行、POS终端、清算日期、卡种、商户类型和商户、回佣收取方式、区域代码、交易代码。
系统中数据粒度采用以天为单位。在数据仓库的基础上,建立了基于SQL Server 2000 OLAP Services的立方体,以供OLAP Services使用。OLAP提供了ROLAP,MOLAP,HOLAP三种存储方案来保存这些立方体[4]。我们选择了使用M0LAP存储方案,它可以支持两种存储方式:1)基于空间的;2)基于性能的。我们选择基于性能的存放方案以满足系统对查询效率的要求。
3.3数据的抽取、转换及装载
数据仓库的数据源是来自OLTP(操作型环境)中的操作数据。这些数据源都有不同的格式、标准和含义。物理点上,他们分布于几台PC上,分属于不同的操作系统与数据库管理系统上,这对数据源的采集带来了困难。数据必须首先按一定的模式进行整理与过滤(同一对象多个实例),最后转换成一个数据仓库接口需要的标准数据源。
本系统使用SQL Server 2000的数据转换服务DTS包及存储过程来实现数据的抽取、转换及装载。在数据仓库生成过程中,数据变换与集成过程十分关键而复杂,其过程如图3:
图3 数据的转换及集成
⑴ 数据定义及读取主要完成定义数据仓库的数据源和数据提取规则或模型等数据仓库内容、结构和环境定义。
⑵ 分离出数据源,验证数据的一致性,将不一致的数据按照统一的规则进行结构与域的变化转换。
⑶ 质量保证对转化完的数据进行数据完备性、数据间的约束关系、数据的一致性、安全性和时序性等方而的检查及修正。
⑷ 加载将提取的数据装入目标数据库,完成数据索引,目录维护等内容。
3.4数据仓库的查询
前台查询系统负责数据的展现,它包括日志查询、MDX(多维语言)查询以及可视化界面查询等。
在建立起服务器后台的立方体之后,可以通过SQL Server 2000 OLAP服务器建立后台数据和所需要连通的外部应用程序之间的连接。Microsoft SQL Server Analysis Services为多维数据仓库输出提供了编程接口:决策支持对象[4](Decision Support Object)。MDX查询可以被集成到使用DSO的程序中,被用于编程访问多个维度。
系统的前端采用JSP技术实现报表的发布,有效减弱了业务逻辑接口和数据接口之间的耦合。同时,很好地分离了各模块的角色和责任,有助于提高代码的可重用性和灵活性。系统提供了多种查询统计分析界面,包括基本的查询统计、二维动态查询、多维展现、各种固定报表输出等。考虑到用户的需求,利用J2EE技术开发的基于浏览器/服务器模式(Browser/server,简称B/S)的数据服务平台系统,实现了数据仓库中的数据在internet上的共享,用户使用浏览器就可以方便快捷地查询、分析。
4结束语
综上所述,数据仓库为解决目前数据分析中遇到的问题指明了方向,为信息分析提供了良好的平台,基于数据仓库的联机分析处理实现了在全局数据的基础上,实时、动态地按照分析人员意愿展开信息分析的功能,信息分析人员通过友好的交互界面可以方便地浏览数据仓库中存储的数据。因此,数据仓库技术在国内银行业及金融业将有良好的应用前景
收起