能简单分享下OpenStack 各个组件的监控方案以及日志收集及监控的方案吗
收起之前做过OpenStack平台监控,我们的方案按照监控层次大体可以把监控分为如下几类:
该类监控并非OpenStack特有,任何系统都必须具备的监控项,硬件设备如交换机、硬盘故障,操作系统内存使用率、硬盘使用率等。
包括OpenStack进程监控以及服务状态监控,进程监控如nova-api、cinder-volume是否运行正常等。服务状态监控主要针对OpenStack的服务的健康状态进行监控,OpenStack大多数服务都实现了心跳机制和状态监控,比如通过nova service-list查看nova的组件服务是否运行正常,neutron agent-list查看Neutron的agent是否OK等。除了OpenStack本身的一些服务,还包括依赖的中间件监控,比如数据库、消息队列等。
或者叫场景监控,根据预置的一些场景监控OpenStack各个服务的运行状况和能力。比如上传一个测试镜像->创建一个flavor->创建一个网络和子网->启动一个虚拟机->创建一个volume->挂载volume到虚拟机中,如果整个场景跑完则说明OpenStack的服务是正常的,并统计场景的各个阶段运行的时间,可以监控OpenStack服务性能。
监控虚拟机的资源使用情况、异常流量等。