最近和很多做虚拟化/云平台的公司交流过,都提到各自的平台有很多保障业务连续性的方法(副本、灾备、负载均衡等等),但是这些方案都是他们平台所提供的功能,如果平台自身故障了,这一系列功能是不是都没用了?相当于把所有的苹果都放在这一个平台上?一旦平台自身故障造成的危害可能更大吧,如何避免这种风险呢?
部署 管理平台在 不同物理设备上, 数据库做 oracle rac 或者主备
主数据中心部署 高可用 管理系统, 备份数据中心 部署备用系统
两个数据库做同步
各个厂商都有这样的灾备技术,和双活技术,
1. 云平台本身具备很高的可用性,如果自身的高可用都出问题,应该是较大的bug,在前期选型时一定要选择成熟的云平台产品
2. 对于已经建成的云平台,可以考虑从第三方备份和容灾角度考虑建设,可以规避一定的单一性故障风险,但是这是一把双刃剑,异构的备份和容灾与原有云平台存在兼容性问题。
3. 话题回到最初,如果云平台自身故障,就如同苹果手机出问题,无论你用苹果耳机还是sony耳机,理论上都不可能好使的,所以还是要多投入监控手段(包括人力、物力)