属于系统硬件组,主要负责基础架构硬件搭建,故障报修,资源调配,扩容等事宜,对于内网内硬件自动资产发现,故障自动发现系统平台,有没有好的思路,或者成熟产品可以借鉴?
其实就是对硬件的管理;我们公司的产品是通过带外的方式对小型机、X86服务器、存储设备、备份设备以及光纤交换机的状态监测;基本是通过HP ILO;DELL iDRAC来获取数据;功能包括设备的硬件状态巡检;能耗管理、资产管理、保修管理以及远程控制;最大的特点就是不需要安装任何Agent;下面的截图是公司的产品的一些截图;可以看一下;谢谢!
同意secretpower的回答
1.如果硬件设备的厂商较统一的话,一般厂商都有自己的集成管理工具,譬如DELL的OpenManage等
2.也可以使用zabbix之类的监控工具,实现对服务器、存储、网络设备等的监控和告警。以服务器为例,带外管理口BMC中开启SNMP trap,zabbix 接收消息并告警
3.多数设备支持将日志写入syslog服务器,然后通过匹配关键词或者严重级别来实现告警,譬如error
我们是通过第二种和第三种实现
收起这个问题更倾向于是一个硬件管理监控的问题,建议使用带外管理集成的方式开展,各类硬件设备均有其管理平台,类似于惠普的Usight,通过带外管理的方式集成相关硬件信息,通过trap消息的方式可以获取故障的告警信息。
收起