大数据分析平台容器化优势?

传统方式底层借助大数据平台提供计算资源,上层使用分析平台对数据进行分析,分析平台可容器化,而底层原有部署在裸金属上的组件,转换成容器化部署,是有实质性的优势,还是仅仅跟随潮流?

3回答

zhuqibszhuqibs  软件开发工程师 , Mcd
zhanghaiyanzhangpinhongdi等赞同了此回答
大数据分析平台如果你硬要容器化,一定是可以的,网络的问题大不了我用host网络吗,都可以。问题是合适还是不合适的问题。大数据分析平台组件的复杂度较高,使用时cpu和内存的消耗较大,容器化后镜像比较大。你想想,要多台服务器才能跑的一个应用,你在一台服务器上跑docker或应用,合...显示全部

大数据分析平台如果你硬要容器化,一定是可以的,网络的问题大不了我用host网络吗,都可以。问题是合适还是不合适的问题。
大数据分析平台组件的复杂度较高,使用时cpu和内存的消耗较大,容器化后镜像比较大。你想想,要多台服务器才能跑的一个应用,你在一台服务器上跑docker或应用,合适吗? 应用拆不开,容器化都是扯淡。

收起
 2020-04-02
浏览309
1、在另一个问题回答中 “ 应用通过容器部署由K8S调度,对于此类应用的业务连续性要求实现同城双活,异地容灾,需要考虑哪些方面? ” 我提到了,Kubernetes 应用体系的可靠性是考可重复部署的描述文件来保障的,由于所有的部署都可以通过yaml所描述的完成整过程快速复现,因此Kuberne...显示全部

1、在另一个问题回答中 “ 应用通过容器部署由K8S调度,对于此类应用的业务连续性要求实现同城双活,异地容灾,需要考虑哪些方面? ” 我提到了,Kubernetes 应用体系的可靠性是考可重复部署的描述文件来保障的,由于所有的部署都可以通过yaml所描述的完成整过程快速复现,因此Kubernetes体系可以实现快速、灵活的业务部署与分布。这对于大数据的动态分布会有一定的帮助。

2、 Stateful Set 的核心意义就在于将存储与计算容器捆绑统一调度。但Stateful Set保障的是计算与存储的同步,并不保障存储的可用,因此 OpenShift 推出了 OpenShift Container Storage (OCS产品)来协助解决这个问题。软定义存储的多副本、备份恢复等手段可以结合Kubernetes来保障业务的连续性要求。 从目前全球技术趋势来看,也有一种猜测大数据平台全面转向容器化的主流方案可能会在不久推出。这是因为随着Kubernetes Native Infrastructure (KNI)框架的整体成熟度不断提高。基于Ironic的裸金属调度整机容器有可能会成为大数据平台构建的基础框架。通过Stateful Set 接近整机容器的调度模式,调度裸金属的大数据节点部署。优势是,在计算资源闲余时间可以将计算资源调度用于其它计算。 但我们仍然面临核心数据的连续性服务能力要求,因为微服务理论中,每个服务的数据都是整体数据模型的小局部供应模型。最终一致性还在核心数据模型上。

3、因此在今天分享的内容中多处提到了如何实现局部小数据模型如何与核心数据模型的同步与快速供应方案。这部分方案其实就是我们现在关注的数据中台,通过隔离局部数据逻辑与核心数据模型,我们通常要分拆成部分核心数据模型的子集,用于面向部分具有共性数据需求的业务上,这部分能力就是数据中台。数据中台相当于过去中间件的数据库连接池,它的实现可以帮助用户进一步解放前端业务的创新能力。借助一些微服务概念,通过蓝绿部署,金丝雀部署等方式,屏蔽数据底层核心逻辑,实现无感知化化面向应急数据源或灾备数据源的目的。从而强化容器化PaaS平台的持续服务能力。并且可以使大数据技术更容器接受一些面向未来的技术创新,使之成为数据多元化处理的引擎。

4、通过Redhat Change Data Capture 这样的技术可以实现复杂/异构/异地/差异逻辑的多数据源同步,从而协助用户实现同城双活、异地双活、异地容灾等需求的实现。并且可以有效帮助前端业务实现屏蔽后端数据技术复杂度。

收起
 2020-04-03
浏览252
郭维郭维  项目经理 , 广东联通
众所周知,Hadoop的出现加速大数据技术的应用推广,随着应用场景的不断丰富,近几年也涌现出多款优秀的计算框架,如Spark、Flink等。此前在大数据分布式调度平台中,大家普遍采用是Yarn,但是随着应用场景丰富和规模扩大,平台逐渐暴露出一些问题,如资源隔离限制较弱、监控信息不完善、...显示全部

众所周知,Hadoop的出现加速大数据技术的应用推广,随着应用场景的不断丰富,近几年也涌现出多款优秀的计算框架,如Spark、Flink等。此前在大数据分布式调度平台中,大家普遍采用是Yarn,但是随着应用场景丰富和规模扩大,平台逐渐暴露出一些问题,如资源隔离限制较弱、监控信息不完善、弹性扩展能力弱、GPU支持不足等。
随着容器化的快速发展,大数据原有的Hadoop Yarn分布式任务调度模式,正在被基于Kubernetes的技术架构所取代。容器凭借轻量秒级部署、一次构建、处处运行的巨大优势,推动了快捷、自动化的工作流程,同时Kubernetes提供的强大编排能力以及蓬勃发展的社区生态,为大数据容器化提供了便捷的平台。
大数据系统原生支持on Kubernetes,例如Spark 从官方2.3版本开始就可以无需任何修改直接运行在 Kubernetes 上,这是一个里程碑式的事件,表明了未来技术架构的发展方向。
由于大数据应用的复杂性,会使用多种类型的机型作为Work节点,如利用云主机应对快速的流量扩容、利用云物理服务器提供无性能损耗能力、利用云GPU服务器的大规模线程和高速计算力优势等等,来满足计算的需求。
容器引擎提供混合集群的统一管理服务,在一个集群可以实现多种类型节点的统一管理,通过Label的设置可以实现对整体资源的统一调度部署,避免了多个集群的使用,一方面大幅降低了使用成本,另一方面有效提升管理效率。
大数据业务对计算的需求是动态的,并且波动较大,容器引擎支持Cluster AutoScaler实现集群工作节点的弹性伸缩,节省开支。目前,容器引擎本身免费对外提供使用,同时提供免费的企业级容器镜像仓库服务,用户仅需支付所使用资源的费用,工作节点支持预付费包年包月、按日配置付费、按小时配置计费等灵活的计费策略选择。
大数据云平台利用容器引擎集群、云物理机集群、云服务器集群构建大数据控制平台和共享服务资源池,为用户提供租户隔离、安全可靠的大数据托管服务

收起
 2020-04-02
浏览247

提问者

严俊研发工程师, 中国移动

问题状态

  • 发布时间:2020-03-31
  • 关注会员:4 人
  • 问题浏览:1410
  • 最近回答:2020-04-03