大数据平台的总体架构设计从下向上依次为:
数据源:支持多种数据源,可以实现接入多个业务系统数据进行接入整合;
接入层:业务数据库定时同步和基于canel的实时同步结合,日志数据实时接入,互联网海量数据实时爬取清洗;
存储层:HDFS分布式文件系统实现海量数据存储,Hbase提供实时数据读写,Kafka消息队列实现数据缓存;
计算层:离线计算引擎用于数据挖掘和机器学习模型训练,实时计算引擎实现日志的实时分析和处理,深度学习引擎用于人工智能算法的运行
分析层:实时SQL用于探索性分析和多维分析,机器学习算法用于商机的分类和推荐,NLP分析实现自然语言处理,深度学习算法用于图片水印和违禁图片识别;
数据服务层:对外提供数据服务;
数据应用层:个性推荐为PC端和移动APP端提供推荐服务;用户画像可以抽象出标签化的用户模型提升客户服务质量的基础;用户行为分析对用户访问网站的规律进行分析可用于智能推荐;统计报表对数据进行挖掘分析,提供报表作为决策的依据,实现商业智能;运营支付对运营部门的需求提供大数据的支持;数据大屏方便用户直观的了解运营情况,包括实时交易图,统计大屏和基地大屏。
企业大数据平台的平台架构设计需要考虑以下几个方面:
在设计企业大数据平台的平台架构时,需要根据具体的业务需求和技术特点进行选择和配置,以便实现高效、可靠和可扩展的数据处理和分析。同时,还需要考虑数据安全和隐私保护等方面的问题,以确保企业数据的安全和合规性。