大数据平台的运维监控主要包括硬件和软件层面,具体如下:
1、主机、网络、硬盘、内存、CPU等资源。
在拥有几十台以上的集群环境中,大量的数据计算对硬件尤其是硬盘的损耗是较大的,在大量计算中,网络也往往会成为一个瓶颈,这些都需要时刻关注。
2、平台层面
主要监控平台各个组件的状态、负载情况,有异常及时报警。
3、用户层面
大数据平台建设是为了服务公司内部广大用户的,所以资源既是共享的,又需要是隔离的,所以需要对用户对平台资源的使用情况做好监控,及时发现异常使用情况,防止对其他用户产生不良影响,影响正常业务开展。