互联网服务大数据数据库

关于cloudera大数据平台服务和角色单点故障问题

我们大数据平台即将上线,经过我们的演练测试,发现大数据平台很多单点1、yarn单节点2、hive单节点3、hbase单节点4、备份hive元数据的pg数据库(这个好办)5、zookeeper部分多少台最佳(当前三台,怀一台大数据平台就有问题,有必要装5台吗)?6、需要备份的内容:配置文件?程序?脚本?系统?hdfs...显示全部

我们大数据平台即将上线,经过我们的演练测试,发现大数据平台很多单点

1、yarn单节点

2、hive单节点

3、hbase单节点

4、备份hive元数据的pg数据库(这个好办)

5、zookeeper部分多少台最佳(当前三台,怀一台大数据平台就有问题,有必要装5台吗)?

6、需要备份的内容:配置文件?程序?脚本?系统?hdfs元数据?

7、master 搭建 master client的必要性?

收起
参与5

返回杨博的回答

杨博杨博课题专家组IT顾问某科技公司

1.yarn的单点问题cloudera已经在解决中,譬如CDH5-beta版本已加入HA的支持。如果着急的话可以考虑,如果不着急的话猜想很快就会出正式版。

2.HIVE用于离线的查询,一般可用性没有哪些必须,如果你要实现也比较容易,前面挡一个haproxy,后面挂多台hive就可以实现。

3.hbase的hmaster是有高可用解决方案的,你搜一下就知道了。

4.备份hive的原数据使用简单的MySQL就可以,不用那么复杂。

5.zookeeper最佳节点数是5台。从你目前的情况来看3台已经可以。

6.如果想安全不光这些,还需要备份hdfs里面的数据。

7.不明白意思。是指什么。

互联网服务 · 2016-07-30
浏览925
  • 我是做运维,排除单点故障,看看大数据平台的健壮性,目地是想高枕无忧,即使宕机的情况下,前面几点我基本明白,最后一点我是听群里的人说的,大概意思是大数据集群的客户端机器,有这个客户机之后,就不用ssh到master上了,具体我不太清楚,不知道是不是这个意思
    2016-07-30
  • 感谢
    2016-07-30

回答者

杨博
IT顾问某科技公司
擅长领域: 数据库服务器人工智能

杨博 最近回答过的问题

回答状态

  • 发布时间:2016-07-30
  • 关注会员:2 人
  • 回答浏览:925
  • X社区推广