属于系统硬件组,主要负责基础架构硬件搭建,故障报修,资源调配,扩容等事宜,对于内网内硬件自动资产发现,故障自动发现系统平台,有没有好的思路,或者成熟产品可以借鉴?
这个问题更倾向于是一个硬件管理监控的问题,建议使用带外管理集成的方式开展,各类硬件设备均有其管理平台,类似于惠普的Usight,通过带外管理的方式集成相关硬件信息,通过trap消息的方式可以获取故障的告警信息。
收起同意secretpower的回答
1.如果硬件设备的厂商较统一的话,一般厂商都有自己的集成管理工具,譬如DELL的OpenManage等
2.也可以使用zabbix之类的监控工具,实现对服务器、存储、网络设备等的监控和告警。以服务器为例,带外管理口BMC中开启SNMP trap,zabbix 接收消息并告警
3.多数设备支持将日志写入syslog服务器,然后通过匹配关键词或者严重级别来实现告警,譬如error
我们是通过第二种和第三种实现
收起