传统金融行业大多为建设数据仓库, 数仓是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表,为了支持管理决策分析。
数据仓库具有历史性,其中存储的数据大多是结构化数据,这些数据并非企业全量数据,而是根据需求针对性抽取的,
数据仓库对于业务的价值是各种各样的报表,但这些报表又无法实时产生。数据仓库报表虽然能够提供部分业务价值,但不能直接影响业务。
大数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;
大数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。
这个问题是不是可以这样来理解(考虑金融行业大多建设有数仓),传统建设的数仓如何跟大数据平台共处或是怎么看待传统数仓与待建大数据平台的位置。
我觉得首先还是要考虑数据需求和数据规模,要对业务部门的数据需求进行挖掘、分析梳理出企业已有数据能够给企业的业务发展带来什么?基于需求来分析数仓和大数据平台的必要性。
我认为数仓应该是大数据平台的组成部分之一或是一种补充,大数据平台可以专注于数据挖掘、智能分析以及解决数仓非架构化分析的短板。
从业务上的视角来看:
1.业务系统过多,彼此的数据没有打通。这种情况下,涉及到数据分析就麻烦了,可能需要分析人员从多个系统中提取数据,再进行数据整合,之后才能分析。一次两次可以忍,人为整合出错率高怎么控制?分析不及时效率低要不要处理?
从系统的视角来看:
2.业务系统压力大,而不巧,数据分析又是一项比较费资源的任务。那么自然会想到的,通过将数据抽取出来,独立服务器来处理数据查询、分析任务,来释放业务系统的压力。
3.性能问题,公司可以越做越大,同样的数据也会越来越大。可能是历史数据的积累,也可能是新数据内容的加入,当原始数据平台不能承受更大数据量的处理时,或者是效率已经十分低下时,重新构建一个大数据处理平台就是必须的了。
一个数据平台的出现,不仅可以承担数据分析的压力,同样可以对业务数据进行整合,也会不同程度的提高数据处理的性能,基于数据平台实现更丰富的功能需求。