王作敬
作者王作敬·2019-03-20 14:17
管理信息系统总监·银河证券

金融企业如何高效使用数据(上)

字数 4093阅读 6216评论 0赞 3

作者:汪照辉 王作敬
汪照辉个人页面


我们说数据是企业的核心资产,也说过数据的价值在于使用它。但一个企业数据有千千万万,数据来源有万万千千。哪些数据是关键数据,哪些数据是无关紧要,有了数据怎么使用,怎么发挥其价值,是企业在金融科技发展迅猛的今天需要认真考虑的问题。数字化转型、数据驱动已经成为很多企业发展战略的重要一部分。研究表明,数据对企业的重要性与日俱增。但同一份数据在不同的人手里有不同的价值。企业拥有数据和高效使用数据并带来业务高价值是两回事。
不论谈金融科技、数字化优化或者转型,或者数据驱动,都离不开数据的支撑。尽管许多公司都知道数据的重要性,都在急于收集更多的数据,但意识到如何高效使用数据的公司却寥寥无几。甚至都不明白该收集什么样的数据,购买什么样的数据。别人成功的业务数据拿过来不见得就能带来自己的成功。眉毛胡子一把抓,做不到知己知彼,就无法真正高效的利用数据应用金融科技能力,进行业务优化和转型,无法实现数据驱动业务创新。

一、 高效使用数据准备

数据本身不会让事情变的简单,除非我们懂得如何利用数据、使用数据。数据是业务的某种表示,和业务密切相关。在考虑数据驱动的时候需要明白数据代表的意义,关注数据来源,做好数据准备才能真正的发挥数据的价值和效能。

(一) 关注数据产生的地方

要高效的使用数据,就需要知道数据代表的意义,数据从哪里来,也就是数据产生的地方——实际的业务场景。数据仓库有种技术叫数据溯源,但是我们不希望搞那么多概念和搞的那么复杂,我们希望直接关注数据产生的地方,避开中间繁复的路径,用最简单的方式产生我们需要的规范化、标准化的数据,直捣黄龙!也就是说,任何数据至少在进入我们的数据中心数据库或数据存储之前都需要成为符合数据标准的数据,不存在数据的缺失、冗余、错误、不一致、二义性等问题。
这可能需要我们考虑是数据收集之后做标准化数据治理,还是在数据收集之前就进行标准化数据治理。过去单体集成、数据仓库阶段,没有考虑到在数据生成之前就标准化,所以从不同系统来的数据到达数据仓库之后,面临着众多的数据问题需要处理。随着互联网结构化、半结构化、非结构化大数据和物联网产生的数据格式越来越多样,从数据量、数据种类、数据实时性要求都有革命性的变化。因此数据处理的思路需要转变,以始为终,关注数据产生和生成的地方,直接以标准化、规范化的格式来定义数据。

(二) 数据准备

一口吃不成胖子,数据的治理过程更是一个持续的长期过程。关注数据产生的地方,认识到企业当前业务数据流程中存在的数据问题,一个流程一个流程,一个系统一个系统的进行梳理和规范化,好过于临渊羡鱼。
1.认识到并承认数据存在的问题
领导对数据中存在的问题往往没有认识,而数据团队往往也是讳疾忌医,或者不屑于做那些琐碎的数据治理事项,毕竟数据治理往往费力不讨好,需要长期的坚持,难以出成绩。怎如建几个平台来的有成绩。另外对业务、数据也需要极深的理解和认识,否则也做不好数据治理。
而且很多数据团队天天忙于出报表,还经常疲于奔命,不是这里数据对不上,就是那里数据有错误,哪有时间考虑数据梳理和治理的事情。但是反过来说,扬汤止沸怎如釜底抽薪,认识到问题更要敢于承认问题,这样才能解决问题。
2.数据标准化,规范化准备
几乎每家公司都会面临着众多的复杂的数据问题,比如数据记录重复、关键数据缺失、不合理的数据值、数据关联错误、数据散落、数据冗余、数据二义性等等问题。都会在数据使用过程中带来巨大的问题。且不说使用错误数据所带来的损失,就数据使用的难易程度就有极大差别。所以要考虑数据的标准化和规范化。数据的收集、去冗、补齐、转换(二义性、不一致、类型、格式、长度、编码等)、存储等需要基于业务现实考虑实现方法,定义标准数据模型和数据规范,实现数据的一致性,维护数据事实上的唯一版本。
3.数据采集准备
数据来源包括内外两个方面及现存和新建系统或应用数据。对内需要实现或保持自有用户、客户规范化数据的实时捕获能力,对外则需要对外部数据进行规范化的格式转换和数据提取、原始数据备份等。
对于已有的系统,数据采集时可以通过适配器的方式在源头对数据进行标准化和规范化。不要总是想着欠债到后期还,也不要寄希望于某一两套数据治理平台就可以实现高质量数据。对于新的业务需求,尽可能实现服务化架构(为了共享数据和服务),按照数据标准和数据规范定义数据模型和数据处理流程。
数据采集,就是尽可能从源头标准化业务数据,消除数据孤岛和数据不一致,在业务系统重构时按照已标准化的数据模型可以快速地重构和实现。
4.数据存储
数据怎么存储,也是一个需要认真考虑的问题。文件、数据库、数据网格、数仓、大数据平台、甚至数据湖等都可以支持数据存储。数据存储该选择什么?我们一向反对非此即彼的选择,也反对什么都定位不清。不同的技术有不同的场景定位。我们说数据需要考虑分层、分级,在考虑数据储存时,就可以根据数据的层级进行分别存储。比如历史久远的客户资产数据、交易数据、消费数据等可以存储于大数据平台,用于远期的数据统计、趋势分析和关联分析等(类似于宏观的指标,利用大数据平台实现)。一段合理时间内的热数据则存放于数仓中,用于支持此期限内的数据统计分析、风控、数据重编排(中短期指标,反哺于业务应用系统);单体系统或微服务数据库则存储自身的数据,支撑业务数据的实时操作,同时同步数据到数仓用于数据整合和进一步的处理分析。各个平台配合使用各展所长,以适应不同的场景定位。
5.数据查询,数据使用
在数据查询和数据使用阶段,尽可能的避免数据的转换和复杂处理。这些工作尽可能在数据供给之前完成。这就是我们以前提到的主动数据准备。比如一些报表数据,可能需要从多个表中或多个数据源进行查询统计,如果每次都是需要的时候再请求查询,其响应时间肯定要慢,这就可以根据需求从多个表或数据源实时或定时供应数据,在中间层进行数据处理,查询时直接从中间层获取最新数据,可以得到极低延迟响应。
数据使用追求唯一可信数据源。同一个数据不应从多个地方获取,即便有冗余和备份,也需要明确数据的唯一来源,而不是多源供给。唯一数据源和数据冗余与备份并不冲突。我们也提到过不同的数据来自不同的数据源,比如从数据库、数仓、大数据平台等可以共同支撑同一个业务应用场景。比如客户数据库提供客户基本信息,数仓则提供客户的历史资产信息,大数据平台则提供资产投资分析、收益对比、投资建议等,所以这些数据共同支撑客户服务,可以通过手机App、网站、应用终端等渠道提供服务。

(三) 以数据为中心,以业务为导向

厘清了上述问题,我们谈谈业务和数据的问题。无论我们谈金融科技、数字化转型、数据化、数据驱动等等,其基础都是数据,但最终目的是为了支撑业务。所以不要抛开业务去做数据标准,不要只盯着自己的一亩三分地,在考虑数据融合的同时考虑应用融合来支撑业务融合。以数据为中心,以业务为导向进行数据治理,进行数据服务构建和主动数据供给。数据治理数据准备切忌讳疾忌医,集中融合大家的智慧实现数据融合,构建共享的数据服务。这个时代并不缺资金,不缺技术,不缺数据,缺的是好的产品。利用数据来创新数据产品或支持业务产品创新,是金融科技发展的趋势,也是价值所在。

(四) 数据服务API

有数据有业务需求,那数据怎么提供?基于服务中台建设的思路,数据由数据中台构建,通过统一的数据服务API的方式提供,避免使用者直接操纵数据,也尽可能实现服务的共享和数据模型封装,支撑业务应用流程的敏捷编排和发布。数据准备的充分,数据模型和数据服务的实现就相对容易很多。另外我们建议不仅要考虑数据库数据存储,也要考虑数据内存/缓存模型,以及其映射关系。数据服务API的实现也不是只有一种方式。比如主动数据准备的数据,为了低延迟可以预加载;或同时需要从多个数据源查询的需求,即便并行查询也取决于最慢的响应,这可能需要考虑数据服务的异步加载、主动刷新以及异常容错等机制。

(五) 数据驱动,形成回路

数据驱动就是在业务运营过程中的每个环节都有数据支撑,并通过算法实现对数据的关联、统计、分析,实现数据自动化流转、业务最优流程和路径选择。新的数据汇入数据流程,形成“数据循环”,驱动算法结果的优化和业务路径的优化。有杂质的数据会使算法结果有污染,不但可能无法获得期望的结果,甚至会带来错误的结论。因此,在数据驱动流程中需要保证数据的高质量,需要提前完成高质量的数据准备。

二、 高效使用数据

有了高质量的数据,能否用好也相当重要。数据是资产,就像有钱也要知道怎么花、怎么用,会投资,才能带来更大收益,更高价值。使用数据就像金融投资,用对了,投资到了正确的地方及合适的产品,才能用钱生钱。但事物从来都不是独立存在,需要有适合其发芽的土壤和环境,需要适当的时节和气候。所以数据生态需要构建。

(一) 使数据就绪

第一步就是如我们前面所讨论的,准备好数据,使数据就绪,哪怕是部分数据就绪,可以一步一步来。这直接决定了能否高效使用数据。我们以前提到过,低质量的数据如同大米中掺杂了石子,不定什么时候就会磕着牙了。因此,在做米饭之前需要把这些石子从大米中剔除。但最根本的方式是在生产大米的过程中避免石子的混入。

(二) 融合技术和业务团队能力

基础设施平台融合、数据融合必然带来应用的融合,也就是业务的融合。除了横向业务的融合,也面临着纵向技术和业务的融合。技术不是独立存在,业务也离不开技术的支撑。协调融合业务和技术团队的能力,以数据为基础,实现自动化的业务数据流转、采集、分析、支持、决策能力,业务团队辅助验证、改进和优化创新,实现1+1>2的期望。

(三) 构建数据自服务能力。

最终我们希望数据自动流转,形成回路,形成健康的数据循环系统,没有数据堰塞湖的存在,让数据具备自服务的能力。通过构建一个个数据微服务,逐步建立数据服务生态,以事件驱动机制驱动数据的自动流转。在此过程中实现数据的自治、自愈、自备、自驱动和自我保护。而人仅在必要的情况下介入验证、调整、改进和优化。

下篇:金融企业如何高效使用数据(下)

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

3

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

趋势观点
本专栏的文章全部来自国内外行业或领域一线最强实践专家的深刻洞察,他们的分享如同为正在摸索前进的更多同行和企业带来一盏明灯。他们的观点也为企业迎接趋势挑战、克服各种困难提供了最好争议的标的。希望有更多一线最强实践专家加入趋势观点栏目,你们是推动中国企业IT应用最值得尊敬的人。

作者其他文章

相关文章

相关问题

相关资料

X社区推广