xuyy
作者xuyy联盟成员·2023-01-16 19:54
数据架构师·秦皇岛银行

大数据平台技术选型及架构设计

字数 2841阅读 3260评论 0赞 5

大数据平台是为了计算现今社会所产生的越来越大的数据量,以存储、计算、展现作为目的的平台。它是一个集数据接入、数据处理、数据存储、查询检索、分析挖掘等、应用接口等为一体的平台。 大数据平台可以提高数据管理效率,并且快速获得有价值信息, 可以轻松地共享资源。 这样就能节省大量时间和精力,对关键内容进行抓取和数据整合。

一、大数据平台分类
根据大数据平台的处理过程、数据类型、数据处理方式、部署方式不同可以进行以下分类:
从大数据处理的过程来划分,包括数据存储、数据挖掘分析、以及为完成高效分析挖掘而设计的计算平台,它们完成数据采集、ETL、存储、结构化处理、挖掘、 分析、预测、应用等功能。
从大数据处理的数据类型来划分,可以分为针对关系型数据、非关系型数据(图数据、文本数据、网络型数据等)、半结构化数据、混合类型数据处理的技术平台。
从大数据处理的方式来划分,可以分为批量处理、实时处理、综合处理。其中批量数据是对成批数据进行一次性处理,而实时处理(流处理)对处理的延时有严格的要求,综合处理是指同时具备批量处理和实时处理两种方式。
从平台对数据的部署方式看,可以分为基于内存的、基于磁盘的。前者在分布式系统内部的数据交换是在内存中进行,后者则是通过磁盘文件的方式。
此外,技术平台还有分布式、集中式之分,云环境和非云环境之分等。

二、大数据平台选型
使用云平台,优点是建设周期短、运维成本低;缺点是费用贵、数据安全性;使用商业化的大数据平台,优点是搭建部署方便、稳定性好;缺点是成本高、不够灵活;使用开源软件自己搭建平台,优点是可以根据需要定制部署,缺点是周期长、成本高、BUG多。
对于金融行业,数据安全至关重要,使用公有云是不可能,大数据团队刚建成,预算不足,可能走自主建设这条艰险路。

三、大数据平台产品
星环科技大数据基础平台(TDH)基于其领先的多模型技术架构,8种异构存储引擎支持10种数据模型,被广泛应用在离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、实时数据处理等各类大数据业务场景。此外,通过星环科技的不断自主研发,TDH成为一款国产化自主可控的大数据基础平台,可以替代Oracle、IBM DB2、Teradata等传统主流数据库在分析型场景中的应用及替代Elastic Search在分布式搜索场景中的应用,并在政府、金融、能源、制造业等十多个行业内落地。同时,TDH完成了与主流信创生态厂商的适配互认工作,满足信创验收要求,帮助企业打造更全面、更便捷、更智能、更安全地国产化数字底座,加速企业数字化转型。
阿里云发布的一站式大数据平台,覆盖了企业数仓、商业智能、机器学习、数据可视化等领域,可以提供数据采集、数据深度融合、计算和挖掘服务,将计算的几个通过可视化工具进行个性化的数据分析和展现,图形展示和客户感知良好,但是需要捆绑阿里云才能使用,部分体验功能一般,需要有一定的知识基础。 M ax C ompute(原名ODPS)是数加底层的计算引擎,有两个维度可以看这个计算引擎的性能,一个是6小时处理100PB的数据,相当于1亿部高清电影,另外一个是单集群规模过万台,并支持多集群联合计算。
华为大数据平台FusionInsight全面优化的大数据平台,实现海量数据快速处理以开放的架构,支持批处理、微批处理、实时处理等业务需求。同时,对数据处理、业务开发、业务移植等方面进行全面优化,可便捷实现业务快速移植、数据快速处理。华为大数据平台FusionInsight 包括FusionInsight HD和FusionInsight Stream两个组件:FusionInsight HD包含了开放社区的主要软件及其生态圈中的主流组件,并进行了大量优化,让企业可以从各类繁杂无序的海量数据中洞察商机;FusionInsight Stream是FusionInsight大数据分析平台中的实时数据处理引擎,以事件驱动(Event-driven)模式处理实时数据的大数据技术,解决高速事件流的实时计算问题。可以在金融、通信、交通、公共安全等领域发挥流式事件实时处理优势,提供实时分析、实时决策能力。

四、大数据平台架构

大数据平台的总体架构设计从下向上依次为:
数据源:支持多种数据源,可以实现接入多个业务系统数据进行接入整合;
接入层:业务数据库定时同步和基于canel的实时同步结合,日志数据实时接入,互联网海量数据实时爬取清洗;
存储层:HDFS分布式文件系统实现海量数据存储,Hbase提供实时数据读写,Kafka消息队列实现数据缓存;
计算层:离线计算引擎用于数据挖掘和机器学习模型训练,实时计算引擎实现日志的实时分析和处理,深度学习引擎用于人工智能算法的运行
分析层:实时SQL用于探索性分析和多维分析,机器学习算法用于商机的分类和推荐,NLP分析实现自然语言处理,深度学习算法用于图片水印和违禁图片识别;
数据服务层:对外提供数据服务;
数据应用层:个性推荐为PC端和移动APP端提供推荐服务;用户画像可以抽象出标签化的用户模型提升客户服务质量的基础;用户行为分析对用户访问网站的规律进行分析可用于智能推荐;统计报表对数据进行挖掘分析,提供报表作为决策的依据,实现商业智能;运营支付对运营部门的需求提供大数据的支持;数据大屏方便用户直观的了解运营情况,包括实时交易图,统计大屏和基地大屏。

五、大数据采集方式
1)通过系统日志采集大数据
用于系统日志采集的工具,目前使用最广泛的有:Hadoop 的Chukwa、ApacheFlumeAFacebook的Scribe和LinkedIn的Kafka等。这里主要学习Flume。
Flume是一个高可靠的分布式采集、聚合和传输系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据,同时对数据进行简单处理,并写到诸如文本、HDFS这些接受方中。
Flume的核心其实就是把数据从数据源收集过来,再将收集到的数据送到指定的目的地。
2) 通过网络采集大数据
网络采集是指通过网络爬虫或网站公开API等方式,从网站上获取大数据信息,该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集。
一般来说,网络爬虫工具基本可以分类3类:分布式网络爬虫工具(Nutch)、Java网络爬虫工具(Crawler4j、WebMagic、WebCollector)、非Java网络爬虫工具( Scrapy)。
大数据应用的创新除了需要技术的研发之外,更重要的是平台环境的建设。 通过使用大数据平台进行数据搜集和统一管理和整合,确保在工作流程中非常安全,大数据平台通过统一安全架构,确保资源隔离效果很好。针对不同人员可以进行不同程度授权,可以灵活自由进行定制设计,确保平台安全性得到提升,避免出现各种安全隐患或信息泄露。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

5

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广