每个企业的IT建设都有其历史,在不同的阶段采用的供应商和产品都不同,在出现故障或问题的时候,特别是出现性能问题,从应用层面、中间件、数据库、网络、系统、存储都会伴随着不同厂家,每个厂家都坚称自己是清白的,问题 是 如何有效的从端到端发现性能瓶颈所在 ,在运维管理方面和工具运用方面有什么好建议?
这个问题很普遍:
在厂家的技术支持中心,这种问题被认为是扯皮问题。每一个厂商只分析自己的日志,如果没有明显问题。那就不管,客户爱怎么地怎么地。让到现场到现场,让看啥就看啥,反正就一口咬定没问题。
对于客户来讲,反正就这几家的设备。要么是一家的问题要么是几家的问题。解决不了你们就给我现场呆着。干着急没则。
其实说到底,我认为这个问题还是在于客户自己。每一个厂家只精通自己的一亩三分地,无可厚非。不可能要求IBM工程师精通ORACLE,帮忙连带数据库一块儿去看。这就要求客户自己来掌握产品之间的集成,掌握整个基础架构。从运维管理上来讲,每一个运维工作或者案件应该是一个团队工作,是一个协调分析,深入研究,充分讨论总结一系列团队工作的成果。而不能单纯割裂各自的角色。架构担当牵头,架构担当指导及追踪一系列运维角色的作业,架构担当总结结束。从运维工具上来讲,监控工具也好,日志也好,有很多。如果我们能自己写一些按照自己的环境特点实现的日志分析工具。能够将存储底层的关键指标和主机层、数据库层以及应用层的关键指标有机联系起来,并能间接反映业务性能。那我们就主动多了。最起码我们可以第一时间定位到哪个层面出了问题。接下来,揪住厂商,有目的有方向地解决问题。
个人观点,不对地方多担待哈。
收起