反应堆停堆之后要确保关键的冷却系统能够继续供电,最后一道屏障,就是蓄电池组。这跟我们数据中心管理员最熟悉的UPS道理是一样的。
1. 大家应该明白,灾难最可怕的是它的连锁反应,这会导致灾难不断扩大和升级。容灾过程中所有决策的核心,不是去“希望”灾难不会升级;而恰恰相反,是去按照最坏的场景假设,以决策如何避免灾难升级。本来以最快速度不惜代价接入电力就可以确保事故不必发生;当冷却失败后不惜损毁反应堆就可以防止核污染;当核污染无法避免时及时通报尽全力疏散就可以避免更大的损失。但是当事人做出一系列错误的决策,恰恰是因为“希望”灾难不会扩大和升级。
2. 不要把所有希望都寄托在双活、多活的架构上。多活可以轻松面对一些灾难,但对另外一些灾难完全束手无策。数据中心的多活更是如此。
3. 预案要设想各种灾难的具体情况。福岛灾难最开始的原因是他们执行的预案是针对地震的而非海啸。
4. 预想灾难时要充分考虑本地的具体情况。福岛的海堤高度是依据1960年智利大地震的数据设计的。但日本地震调查研究促进会发现因为地质结构不同,福岛很有可能面临高得多的海啸,督促东电公司需加高防护海堤。但是东电以耗资巨大,并且理论中预测的海啸实际发生率太低为由,未采取任何行动。
5. 多种手段防止灾难。福岛在灾难设计上用了多道屏障保障电力供应。如果没有这些屏障连最初的八个小时都不会有。
6. 必须充分考虑兼容性问题。电力系统还会互不兼容的问题大概只有日本才会出现。但是这正好为我们IT容灾提了醒,因为IT系统上面临的兼容性问题远比电力系统更复杂。
7. 充分演练。如果核电站之前有过哪怕一次全面演练,就不会出现备用电力无人能够接入的尴尬。
8. 保证真实信息的准确流通。没有完整确切的信息就无法准确决策。试想如果日本政府了解到时间的紧迫性,调动所有资源和力量,在蓄电池耗尽前接入电力应该是可以做到的。