最近和很多做虚拟化/云平台的公司交流过,都提到各自的平台有很多保障业务连续性的方法(副本、灾备、负载均衡等等),但是这些方案都是他们平台所提供的功能,如果平台自身故障了,这一系列功能是不是都没用了?相当于把所有的苹果都放在这一个平台上?一旦平台自身故障造成的危害可能更大吧,如何避免这种风险呢?
我的建议如下:
1.云平台故障或虚拟化平台故障,要看故障的类型,目前这些系统都可以做到比较高的可用性,如管理平台故障,不影响虚拟主机的运行。
2.业务连续性保障是一个很大的话题,具体到虚拟化,主机可以放在不同的Zone,甚至是不同的机房保障服务的可用性;
3.根本的出发点,还是要从业务架构的视角去思考,目前分布式应用架构,可以做到非常高的可用性。
1. 云平台本身具备很高的可用性,如果自身的高可用都出问题,应该是较大的bug,在前期选型时一定要选择成熟的云平台产品
2. 对于已经建成的云平台,可以考虑从第三方备份和容灾角度考虑建设,可以规避一定的单一性故障风险,但是这是一把双刃剑,异构的备份和容灾与原有云平台存在兼容性问题。
3. 话题回到最初,如果云平台自身故障,就如同苹果手机出问题,无论你用苹果耳机还是sony耳机,理论上都不可能好使的,所以还是要多投入监控手段(包括人力、物力)
部署 管理平台在 不同物理设备上, 数据库做 oracle rac 或者主备
主数据中心部署 高可用 管理系统, 备份数据中心 部署备用系统
两个数据库做同步
各个厂商都有这样的灾备技术,和双活技术,