你说的这种情况确实是目前比较典型和常见的现象,我暂且称它是现象而不是故障。之所以称它为现象而不是故障,这是根据数据仓库的应用特点和DPF的share nothing 架构来说的。
我所见到的数据仓库,大多是在系统层面做了HA,比如AIX的HACMP、Linux的RHCS等,以保证当一台服务器出现故障时的资源切换,然而在实际的生产中貌似是很少切换的,除非是故障的服务器真的不可用了才会去切,因为切换动作比较大,一般需要经过层层审批,需要惊动领导,还有就是切换后真的跑得很慢。
这种做法也是基于数据仓库的应用特点实行的,不像在线交易系统,必须保证7*24小时online。所以个人认为没有必要一发生节点crash,就马上进行切换。实际情况下,一般都有故障处理的级别的,节点切换必然是很高的故障级别才需要做的。
至于您提到的HA实施的方案,例如hacmp,rhcs,网上有很多,官网也有教程,应该不难找到。
一点愚见,分享一下了,希望有帮助吧。