努力呀
作者努力呀·2020-12-14 17:15
数据库运维工程师·XX

银行大数据平台数据建模方法与应用

字数 2707阅读 3904评论 0赞 1

作者:何可 农行研发中心


一、 大数据平台数据建模背景

国内各家商业银行逐步开展大数据平台建设,由于缺少成熟的经验可供借鉴,各家银行大多参考国外的数据仓库建设经验。随着业务的发展、数据的积累,建立在大数据平台上的应用、灵活查询、数据分析等访问越来越多,突显了大数据对业务发展的支撑作用,“技术推动业务,业务引领技术”在大数据的运用中得到了充分的展示。某大型商业银行源系统众多、数据量大,该行建设了大数据平台提供统一的数据服务,并总结一套适用于该行业务特色的模型建设方法论,为数据分析、数据挖掘等数据服务提供坚实的数据基础。

该行先后完成了存款、贷款、理财等核心交易系统的系统调研与分析工作,完成了资产负债、银行卡统计分析、电子银行报表系统的数据分析应用服务支持,在大数据平台建设实践中不断研究和探索,吸取了他行的大数据平台模型设计经验,结合三范式建模与维度建模的优缺点,遵循大数据平台建模需要满足的易用性、高效性、稳定性的建设思路,在对存款、贷款、理财、合约、机构、客户、交易明细、产品等大数据平台数据模型设计过程中总结了一套维度建模与范式建模相结合的建模方法并进行实践,取得较好的建设效果。

二、 大数据平台数据架构

该行大数据平台将有价值数据进行集中存储与整合,制定数据层次定义与数据分布规则,配套编制相关规范,凝练形成大数据平台一体化解决方案,以构建全行统一的数据视图。根据不同的功能划分,实现对各类模型的统一存储、分区组织。大数据平台的数据架构主要包括源文件区、操作数据区、数据仓库加工区、数据集市加工区。

源文件区使用 Hadoop 大规模高容量集群存储企业级数据采集与交换系统每日抽取和转发符合大数据平台数据准入要求的各业务源系统数据文件,实现该行内外各类数据的文件级整合,规划文件级数据存储目录及存储策略,搭建该行海量数据文件级全貌视图,可以方便、快速、稳定地提供数据文件服务。

操作数据区是大数据平台的贴源数据层,主要接收并处理该行内外各类业务源系统数据文件,充分发挥 Hadoop 集群并发高、规模大、处理快、数据准的优势,对数据文件进行预处理,在最大化保持数据原貌的前提下,制定合理的数据内容入库规范和存储策略,实现数据的及时、准确、有效处理,形成 Hadoop 历史数据变化积累。经过 Hadoop 预处理加工后按需生成的增全量粒度的贴源数据。

数据仓库加工区主要包括明细数据模型和汇总数据模型两大类数据模型。明细数据模型以数据为驱动,按照业务主题将该行客户、产品、合约、存款、贷款等业务数据进行拼接与整合,以形成企业级的统一数据视图。通过将维度建模与范式建模相结合,总结出一条“数据驱动、业务导向”的数据模型建设方法论,尽量屏蔽源系统结构差异,减少对数据集市的冲击及影响,满足稳定性、扩展性、可理解性。汇总数据模型是从业务的视角出发,提炼出对大数据平台具有共性的数据访问、统计需求,从而构建一个面向支持集市、提供共享数据服务的公共数据。通过预计算、预汇总和预拼接形成标准统一、口径一致、可复用的公共数据,兼顾业务需求和数据处理性能,实现多样化数据粒度和保留周期的数据存储。

数据集市加工区是面向特定业务领域的定制化加工后数据集合。按照该领域内的数据加工需求,将相关业务数据按照不同角度进行组织和存储,建立相应的业务主题,实现星型、雪花型数据结构设计,保留该领域范围广、时间久的历史数据,便于进行深度的数据分析和快速查询。数据集市具有面向特定用户群、时效性合理、便于扩展的特点。按照各个数据集市业务领域的数据使用特点重新组织数据,形成数据集市核心模型,在此基础上加工出满足各类营销、考核、风险、信用等等数据分析型应用系统的数据,服务于深度数据分析、挖掘、测算等工作。

三、 大数据平台数据建模方法

大数据平台领域的数据建模方法主要包括范式建模和维度建模两大流派。范式建模是企业级面向主题的规范化建模方式,优点是信息全面,数据统一且冗余度低,稳定性高,有较强的可扩展性,可以较好地屏蔽源系统数据的变化。缺点是模型业务可读性差、实施周期长、由于范式模型设计使数据内容分散在多张表中导致直接数据访问响应较慢。维度建模是面向业务过程的规范化建模方式,优点是关注应用需求易于业务人员理解,直接数据访问响应快速,模型业务可读性高,实施周期短,缺点是稳定性、扩展性差,较难屏蔽源系统变化,由于维度模型设计导致数据冗余度高。

该行在大数据平台数据建模过程中通过深入分析维度模型和三范式模型的优缺点,借鉴了同业已建设的大数据平台的三范式模型设计方式的实际应用情况,再结合该行业务特色以及数据量情况,探索出符合该行特色的维度建模和三范式建模相结合的大数据平台数据建模方法。该建模方法既兼顾模型的稳定性、可扩展性、又可以提高访问效率、增强业务可读性、缩短开发周期,在进行数据模型设计时,从数据量、数据变化频度、应用访问形式、业务特征、历史数据访问要求、业务联动性等方面决定采用维度建模方式或范式建模方式。

大数据平台数据建模主要思路包括在每个业务条线下都有一些主属性,这些主属性是该业务条线的核心内容,且这些主属性变化频度较低,适合采用维度建模方式来进行设计。对于每个业务条线下有一些属性是联动变化的情况,即会同时发生变化,这样的属性尽量放到一张表中。对于余额、发生额类的属性变化会较频繁,有一些余额可能会同时发生变化,对于这样的情况采用双管齐下的方式,即用三范式设计保留所有金额类的数据,常用的金额类采用维度建模方式,并将联动变化的放到同一张表中,保留两份历史数据,适当进行数据冗余。对于一些属性可能会有很多种类型,例如地址有单位地址、家庭地址等等,主要采用三范式设计。对于一些业务条线下的属性可分为几大类,例如贷款业务的属性可分为利率类、利息类、余额类等等,对于这样的大类设计主表、子表数据模型。对于一些维度属性和金额时常会同时访问,在进行数据模型设计时可以将维度属性冗余到金额表里。

四、 大数据平台数据建模总结

该行的大数据平台数据建模方法已经在其大数据平台建设过程中得到充分的实践验证。在大数据平台建设过程中,技术人员基于数据架构搭建数据模型,根据数据建模方法和思路进行模型设计。该行的大数据平台数据建模方法借鉴了国内同业建设数据仓库的宝贵经验,对常用的三范式建模方式进行改良与提升,根据该行业务特色提出一种将维度建模与三范式建模相结合的方法进行大数据平台数据模型设计,开辟了数据模型设计新思路,并在此基础上总结出一套适用于该行业务特色的数据模型建设方法论,在一定程度上提高了数据使用效率,为同业大数据平台建设提供可借鉴的宝贵经验。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关问题

相关资料

X社区推广