自动化运维:自动化运维的关注点有哪些?运维工具选择与行内现有平台的结合?分布式实例一致性备份恢复如何实现?低效率SQL如何快速定位?
收起分布式数据库组件和节点较多,需要自动化运维平台方便管理,自动化平台需要重点关注:
1、 自动化安装部署,包括全量和增量部署;
2、 自动化数据库实例申请和快速自动交付;
3、 各分布式管控组件的管理和监控;
4、 各数据库节点的性能监控,例如CPU、IO、内存等等;
5、 数据库实例监控,数据库运行状态、各性能指标;性能问题快速定位,提供慢查询语句快速定位;故障诊断分析;异常会话管理等;
6、 数据库的故障切换管理,故障自动切换,故障节点更换等维护;
7、 数据库在线扩缩容;
8、 数据库备份和恢复;
分布式数据库的各节点的备份通常是物理备份,恢复时各节点通过物理备份加日志的形式进行恢复,恢复时需要考虑分布式事务一致性问题,多个节点在恢复完成后,需要确保各节点间的分布式事务是一致的,因此给恢复带来了一定的难度,需要通过日志和全局事务ID进行分布式事务补齐,各类异常场景比较复杂,可能会造成数据库一致性恢复失败,比如一些跨度较长的事务,需要各厂商提供更为完备的恢复方案,这一块在引入时需要重点关注。
慢SQL:
需要分布式数据库提供完备的自动化运维平台,能够对慢SQL进行及时收集和分析展示,便于出现性能问题时DBA能快速定位。