郑金辉
作者郑金辉·2023-08-02 13:38
技术总监·某公司

数字化转型背景下的数据中台建设(1/2)

字数 1500阅读 944评论 0赞 1

最近跟几家央企沟通十四五规划和数字转型的过程中,发现了一个很有意思的事情,大家不约而同选择了数据层面进行突破。其实想想也是,传统的IT大多是自下而上发起的,专注在资源的建设和交付以及能力的连接上,面对现在数字使能、业务敏捷的大趋势下,数据就成了能快速切入的关键点。无论是“业务数据化”还是“数据业务化”,这么里面都有一个关键的环节就是如何做好数据平台的规划和建设,终于你喜欢管它叫数据集成平台还是数据中台,那就随你喜欢了。

一、数据中台的能力建设

数据中台有两个关键点,一是沉淀,首先是数据资源的沉淀,然后是能力的沉淀,数据全生命周期管理的能力沉淀;二是重用,沉淀不是目的,重用才是目的,更多的是能力的重用。面向整个组织,强调全域数据的能力输出,降低重复建设,提高数据应用建设效率和效果。

数据中台侧能够重用的能力有哪些呢,我想主要还是围绕全域数据管理的,首先是数据资产化管理,把数据从资源变成资产,资产的输出本身就是最核心的能力。再有就是数据采集迁移、数据可视化等数据管理的能力,还有能力编排和开放,最后其实还有一个关键问题,也是比较容易忽略的问题,也是我们的愿景,那就是自助分析的能力。

二、消除数据孤岛是核心任务

数据中台最核心的任务是消除数据孤岛,为了达成这一目的,之前行业实践里面也做了很多努力,比如传统的数据仓库、现在的数据湖、数据集市等,都是为了弥合数据管理上的鸿沟。数据孤岛之所以是孤岛,是因为只能反映局部和片面的情况,无法形成全局的数据视野,会给分析决策带来困扰。我理想中的的“数据库”是一个全域的、动态的、分成的模式,至于实现的技术手段,主要涉及是数据湖、数据仓库和数据集市,他们还是有区别的:

1、数据湖: 负责全域数据的汇总,数据湖关注数据的原汁原味,也就是原始的裸数据;

2、数据仓库: 负责全域数聚合数据和轻度汇总数据的管理,随着数据能力提升,开始出现实时数仓,重点解决数据的时效性问题;

3、数据集市: 主要是负责对数仓分析结果的存储,以及主题数据数据的管理,强调场景化,重点是标签化、质量稽核等等

三、实时计算是趋势

数据中台与传统大数据平台在实践中还有另外一个重要区别,那就是实时计算的场景大幅增加,需要关注更多的实时数据的处理。传统解决实时计算的思路,是在离线计算的基础上增加新链路,负责处理实时数据,直到现在这种模式也被广泛采用,行业里面往往把这种方式成为Lambda架构。但是同时维护两条数据链路,维护两个技术栈,运维和开发成本不小,也不利于数据服务的平台化。所以在数据中台的大背景下,批流一体化成为关注焦点,离线处理和实时处理整合成一套代码,flink开始被被广泛采用,这就是Kappa架构。Kappa架构的技术选型也逐渐趋向统一,数据流转往往采用kafka,数据计算采用flink,数据存储采用druid、hbase或者redis。

四、数据集市,数据重用的利器

数据集市根据应用场景的不同,一般分为独立数据集市和非独立的数据集市。独立数据集市往往适合数据规模小、场景单一的客户,没有必要建设大而全的全域数据仓库,直接从上游业务系统抽取数据进行分析和展现。非独立数据集市,其实是基于数据仓库和数据湖中,提取数据进行分析,强调数据的应用主题和数据使用的灵活性,侧重维度建模。

数据集市的重点关注数据应用主题的提炼和数据指标体系的建设,有了指标体系,可以大大增加数据应用的灵活性,提升数据的重用度,化被动为主动,为数据资产化打下坚实基础。

数据湖、数据仓库和数据集市都是概念,都是人为制造的概念,是为了让大家统一语言而已,不应该拘泥于文字,而是应该回到数据的沉淀和重用,以及能力开放上面。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广