时东南
作者时东南2017-08-22 18:09
软件架构师, 外资银行

券商大数据的探索与实践

字数 5738阅读 2504评论 0赞 3

一、背景介绍

1.1大数据思维

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。可见,大数据及其技术带来了与过往采用少量的“小数据”、受限的分析工具等完全不一样的革命。作为高度依赖信息技术和数据的券商行业,做好大数据分析,我们必须先要具备大数据思维。那么,到底什么是大数据,它有哪些特点呢?又带来了哪些生活、工作和思维上的变革呢?

  • 从采样数据到全体数据
    过去,由于记录、存储和分析数据的工具不够完美,人们只能通过随机抽取采样的方式,对少量的样本数据进行分析,并且忍受样本集和全量集之间的偏差,从而给数据分析结论带来了诸多的风险和挑战。而如今对海量的数据采集、存储和运算全面支持,使得对全体数据的分析变得简单,可行。
  • 从精确性到复杂性
    数据的采集和分析是反应了对世界的认知。其实世界中的事物,往往不是精确的,而复杂的,混乱的,多样的以及以概率发生的。在小数据时代,我们收集的数据太少,精确度直接决定了分析结论,因此追求精度是十分合理的。而在大数据时代,我们期望收集全面的数据,追求从各个不同角度观察事物的权利,从而认识到这个无法精确描述的世界的全貌。
  • 从相关关系发掘更多
    相关关系是指当一个观测值增加时,另一个观测值可能增加(正相关)或者减少(负相关)。相关关系只是反应一种大概率的可能性而非确定性,但这种可能性会帮助我们捕捉现在和预测未来。

由上可知,大数据时代,不仅仅是技术革命的丝带,更是一个思维变革的时代,是一个充分挖掘数据财富的时代,也是一个运用技术驱动业务革新的时代。作为券商的我们,也必须改变工作和思维方式,紧紧地拥抱它。

1.2大数据平台技术的发展

大数据时代需要对数据进行海量的采集、存储、清洗、分析处理,甚至有些场景还有实时分析的要求,单台的计算机已经难以胜任,必须采用云计算架构。因此,大数据与云计算的关系就像一枚硬币的正反面一样密不可分,互相成就了对方的价值。那么什么是云计算呢?云计算(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,是分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)、热备份冗余(High Available)等传统计算机和网络技术发展融合的产物。

2003年,Google于SOSP上公开了描述其分布式文件系统的论文“The Google File System”,为Apache Nutch的分布式文件系统(NDFS)提供了开发思路,也开启了云计算快速发展的序幕。2006年,大数据处理软件Hadoop正式发布。经过10年的发展,Hadoop的大数据生态系统范围不断扩大,得到了快速进化,等不仅可以处理百PB级的数据,原本做不到实时的应用也实现了分钟级别的准实时化处理,大数据交互式查询分析、流式计算、内存计算、机器学习等技术成为业界研发和应用的新方向。

二、相关大数据平台介绍

2.1互联网行业的大数据平台介绍

作为互联网行业的领头羊,腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户。特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,对于大数据分析和挖掘的重视程度高于以往任何时候,如何从大数据中获取高价值,已经成为大家关心的焦点问题。在这样的大背景下,为了公司各业务产品能够使用更丰富优质的数据服务,近年腾讯大数据平台得到迅猛发展。

1.png

1.png

从图1可以看出,腾讯大数据平台有如下核心模块:TDW、TRC、TDBank和Gaia。简单来说,TDW用来做批量的离线计算,TRC负责做流式的实时计算,TDBank则作为统一的数据采集入口,而底层的Gaia则负责整个集群的资源调度和管理。整体的架构入图2所示:

2.png

2.png

作为互联网行业技术领先的公司,腾讯对通用的开源大数据框架进行了深度的定制和优化,例如TDW基于开源Hive进行了大量定制开发;TRC是基于开源的Storm深度定制的流式处理引擎,用JAVA重写了Storm的核心代码;自研Sfair (Scalable fair scheduler)调度器是基于Yarn之上,优化调度逻辑,提供更好的可扩展性,并进一步增强调度的公平性,提升可定制化。

2.2传统银行行业的大数据平台介绍

某传统银行的大数据平台及应用的整体架构如图3:

3.png

3.png

大数据平台重点功能模块定位如下:

  • 基础数据集群
    使用分布式文件系统和数据库等组件实现全量结构化数据和非结构化数据存储,并提供标准接口或Rest标准接口,上层业务以只读方式访问。数据使用平台集成的工具批量导入导出。
  • 在线处理集群
    基础数据集群中的存放的往往是低价值密度的数据,经过加工处理后,提取出高价值密度的数据,放入在线查询集群,支撑实时业务、自助查询等高并发,低时延的数据查询。
  • 离线处理集群
    离线数据处理集群主要用于海量数据的分析处理,提供数据挖掘、数据探索功能框架,从海量数据中提取高密度价值的数据。适用于对海量用户行为数据挖掘、建模,以支撑以客户为中心的精准营销、决策分析等应用场景。
  • 流式处理集群
    使用流式处理组件,将实时数据接入。通过注入实时业务处理规则,对事件做分析处理,实时决策。流事件处理过程中,需要访问基础集群或在线处理集群,获取必要的支撑信息,如风险信息表、黑白名单、历史交易信息等,要求支持每秒万级别并发数据访问。适用于信用卡授权风险控制、移动在线支付、在线统计分析等对实时性要求较高的场景。

三、我们的路径

3.1迎接大数据挑战和机遇

随着金融行业的发展,证券公司需要在满足监管层合规审计的要求下,在竞争激烈市场中保持领先地位,必须以客户为中心,对内深化运营和服务,提高现有客户体验和单客户价值;对外实时了解市场和上市企业等信息,加强跨界合作,对潜在客户精准定位和营销。

大数据为券商带来了挑战和机遇,其对我们的价值主要体现在以下几个方面:

  • 提升客户体验
    传统券商行业必须改变思维方式、习惯,甚至是这个行业的行业文化,要转变到以客户体验至上为最高原则,运用大数据维度丰富的特点,提升客户体验,进而更好地吸引和留住客户。
    券商行业传统的信息化建设已经完成,但是信息系统用来分析产品和服务等业务流程,提升业务效率的工作还处于起步。未来,利用大数据分析技术,券商业可以分析业务流程,重新确定业务的规则和流程、定价和服务,实现效率最大化。
  • 提升运营管理水平
    移动端、PC端乃至智能可穿戴设备都已成为用户数据触点。股票、投资理财、投顾服务等各个业务,涉及到交易、风控、清算等系统的数据都是用户在各个触点、场景下的痕迹,对这些数据进行挖掘和分析,可以掌握用户在该券商所处的生命周期,从而可以有的放矢的对用户进行针对性运营。

3.2融合传统数据仓库与大数据平台

大数据平台的发展也必须与公司现状相融合。大部分证券公司已建立公司级数据中心,各业务条线数据原则上全部进入数据中心,数据中心成为业务分析、风险管理的主要数据提供者。下面,我们先分析下传统的数据中心与大数据平台的区别。

4.png

4.png

由上述的对比分析可知,大数据平台是逐步替换传统数据中心的过程。而在当前阶段,我们考虑到充分利用现有IT资源,平滑过渡,将数据中心与大数据平台进行融合,具体包括:采集通用,例如传统数据中心已经对现有的结构化的业务数据进行了采集,大数据平台无需再次采集,直接从数据中心获取;存储共享,大数据平台海量存储可共享给数据中心;分析互补,数据中心利用成熟的BI算法,处理传统的擅长领域的小数据分析,大数据平台利用复杂运算量的机器学习算法,处理客户行为等领域的大数据分析。

3.3大数据平台的架构原则

大数据技术目前处于高速发展中,如果没有一个良好的IT基础架构以及业务应用环境,那么其发展肯定会举步维艰。所以大数据落地必须架构先行,而确定架构首先需要确定架构原则来满足业务需求。大数据处理的技术架构,通过高速获取数据并对其进行分析和挖掘,从海量形式各异的数据源中更有效地抽取出富含价值的信息,它侧重数据挖掘分析而非数据的强一致性保障,故可以牺牲一致性而换取高可用性。因此,我们认为的大数据分析平台的架构必须满足以下的需求和特点:

  • 扩展性:需要支持增量式、几乎不限制的快速扩展
  • 可用性:采用应用层的容错机制,提高可用性
  • 灵活性:灵活可动态改变的数据模型
  • 一致性:不要求保持强一致性,不采用分布式事物处理,采用简单一致性模型等。

3.4大数据平台的整体规划

通过以上所述,我们确定了大数据平台的机遇和挑战、大数据平台与现有系统的融合,以及大数据平台为满足业务需求所需要的架构设计原则。接下来,我们必须有跨越发展的思维,弯道超车的勇气,快速、稳定、持续地开展大数据平台的建设,为挖掘金融行业最具价值的券商“大数据宝藏”做好准备。

首先,大数据基础平台的建设以采购外部成熟厂商的产品为主。基础平台的建设的需要较高的技术要求,而采用开源产品存在安全性、维护性、稳定性等问题。当今时代,金融企业的信息化建设水平直接影响客户选择产品甚至公司的直接声誉,因此,选购国内外成熟的厂商产品,是券商行业快速、稳定、持续建设大数据平台的必由之路。借鉴互联网企业在数据使用方面的经验,生态圈更为完整、扩展性更好的开源项目Hadoop引起了我们的关注。在选择Hadoop的发行版中我们分别考察了几个Hadoop的主流发行版,包括Cloudera的CDH、 Hortonworks等,最终确认大数据平台采用Cloudera的CDH企业版作为基础平台。作为业界最领先的企业级大数据平台,除了满足业界最流行的基于开源Hadoop及其生态组件构建的CDH核心外,拥有完善的企业级功能,还包含了很多为支撑企业级业务的高级管理特性,本地化强大的技术支持团队也是我们考量的依据。

其次,我们确定使用Lambda架构,将大数据平台的整体架构分为四层,分别是数据采集层、批处理层,服务层,和加速层。同时借鉴了LinkedIn的系统架构,在数据上游增加了一层采用Kafka为基础的数据采集层(与Lambda原生架构的区别之处),目的是为高峰交易时间的日志数据提供数据缓冲,数据缓冲可以增强整个大数据平台的整体弹性。服务层是由Cloudera Impala框架来实现的,Impala输出一系列包含预计算视图的原始文件,同时在服务层建立索引和呈现视图,以帮助企业实现秒级交互查询。数据加速层在本质上与批处理层是一样的,都是基于其落地的数据计算得到视图。加速层就是为了弥补批处理层的高延迟性问题,它通过Spark Streaming或Cloudera Search或二者结合的框架计算实时视图来解决这个问题。实时视图仅仅包含数据结果来提供批处理视图。同时,批处理的设计就是连续重复从获取的数据中计算批处理视图,而加速层使用的是增量模型,这是鉴于实时视图是增量的。总体来说该架构集合证券行业的特点,在数据采集层充分考虑了证券交易中波峰波谷的应对,通过数据批处理层实时能够完成原始数据到业务使用数据的数据清理、通过数据服务层能够在未来灵活的为其他外部应用提供服务,而数据加速层很好的解决了数据延迟问题,保证了整体数据查询与展现的秒级实现。

5.png

5.png

数据处理的业务采用多层Flume方案完成实时数据采集,第一层Flume采集至kafka后,由第二层Flume直接将原始日志存入HDFS,同时通过Spark Streaming协助完成实时数据的清洗和加工,并由第三层Flume采集至SOLR实时检索。

6.png

6.png

3.5大数据的应用规划

相比于建设大数据平台底层架构,大数据的应用相关工作则更加复杂多样和充满挑战。企业级大数据的应用建设是一个不断完善的过程。本节分以下几个角度介绍了具体实施方法和策略。

  • 以内部数据为主,外部数据辅助
    企业的大数据来源讲可分为自身业务生产经营环节产生的所有数据和来自外部,如第三方/互联网。通过成熟的应用经验调研和行业分析,确定现有的内部业务大数据才是最大的价值挖掘目标。因此,确定了内部数据为主,外部数据辅助的策略。
  • 以客户数据为主,产品数据辅助
    企业的生产经营活动中会产生服务客户相关的数据,例如客户在APP、网页端的浏览、查询、交易的行为习惯,以及销售、客服、运维和CRM等等数据;也会产生一些产品、服务相关数据,例如产品研发、设计的数据。根据以客户为中心的核心思维以及为了最大挖掘客户需求和价值的目的,确定以客户数据为主,产品数据辅助的策略。
  • 由易到难,逐步开展
    大数据对于传统金融企业来说是一个新鲜事物,也就更需要我们借鉴其他行业的成果,积累经验,摸索前进。因此,我们的应用建设过程也必将是一个由易到难,逐步开展的过程。开始,我们可以采集多交易渠道的日志,进行整合加工,分析账户风险性、交易的合规性等。未来,我们可以采用机器学习算法进行深度的客户行为分析,识别客户便签并与产品进行精确匹配,精准营销。
  • 结果反馈并整合,实现闭环提升
    大数据的应用分析的有两个重要作用:1)、为经验管理者提供决策建议以及数据支撑;2)、提升客户体验和关联推荐,进而提升客户留存度和产品销售量。因此,不进行闭环反馈并指导实践的大数据分析是没有任何意义的。未来,我们必须将应用结果的反馈与新数据的不断整合,实现价值挖掘的闭环提升。

四、总结

大数据平台的建设非一朝一夕之功,而需要数据模型分析人员、算法研究人员、平台开发和运维人员等共同持续地努力。本文仅仅从我们券商实施经历上谈谈感受和体会,还未涉及到人才培养,团队建设、数据安全和客户隐私等诸多方面。不过,我们坚定地认为大数据分析在券商行业必将有越来越广阔前景,也已坚定地选择了这个发展方向,苦心修炼,最终必将迎来收获的时节。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

3

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广