移动经分系统DB2 DPF高可用如何实现?

现在移动的经分系统,都是用的DB2 DPF,像我们这边的经分仓库就是由6台HP-UX主机15个节点构成,前段时间就是因为一个复杂的SQL导致NODE 0直接crash掉,导致整个库不可用,有没有一种可靠的方案为DPF环境提供高可用。我在网上也看了好多,利用HA做双机,具体的实施方案不清楚,或者有没有...显示全部

现在移动的经分系统,都是用的DB2 DPF,像我们这边的经分仓库就是由6台HP-UX主机15个节点构成,前段时间就是因为一个复杂的SQL导致NODE 0直接crash掉,导致整个库不可用,有没有一种可靠的方案为DPF环境提供高可用。

我在网上也看了好多,利用HA做双机,具体的实施方案不清楚,或者有没有更好的方案,请大家讨论,谢谢。

收起
参与48
  • 对于这种问题来说,高可用是无法做到解决问题的,只能从SQL层面调整优化,DPF本身虽然说是share nothing的结构,但是通常catalog节点是目录节点,很多表的catalog信息都存在这个节点,所以这个节点down掉就会影响整个系统,除非你在设计应用的时候,各个分区节点表的数据分散,并且各个查询都不会交叉运行在所有节点,这样才能做到down掉一个节点其他节点不受影响,DPF如果一个节点的表出现坏块,任何查询改表的数据的数据库都会down掉,这个也是数据ACDI的特点决定的
    2015-11-05

查看其它 12 个回答windy的回答

windywindy数据库管理员KSRCB

你说的这种情况确实是目前比较典型和常见的现象,我暂且称它是现象而不是故障。之所以称它为现象而不是故障,这是根据数据仓库的应用特点和DPF的share nothing 架构来说的。

我所见到的数据仓库,大多是在系统层面做了HA,比如AIX的HACMP、Linux的RHCS等,以保证当一台服务器出现故障时的资源切换,然而在实际的生产中貌似是很少切换的,除非是故障的服务器真的不可用了才会去切,因为切换动作比较大,一般需要经过层层审批,需要惊动领导,还有就是切换后真的跑得很慢。

这种做法也是基于数据仓库的应用特点实行的,不像在线交易系统,必须保证7*24小时online。所以个人认为没有必要一发生节点crash,就马上进行切换。实际情况下,一般都有故障处理的级别的,节点切换必然是很高的故障级别才需要做的。

至于您提到的HA实施的方案,例如hacmp,rhcs,网上有很多,官网也有教程,应该不难找到。

一点愚见,分享一下了,希望有帮助吧。

IT咨询服务 · 2015-11-05
浏览1577

回答者

windy
数据库管理员KSRCB

windy 最近回答过的问题

回答状态

  • 发布时间:2015-11-05
  • 关注会员:13 人
  • 回答浏览:1577
  • X社区推广