运维团队的值班安排分三班,保持7x24小时的人员安排,在任何时间数据中心都由值班人员。运维团队根据数据中心的运维管理制度,通过主动性、预防性维护,执行日常维护作业计划,对告警、性能、运行状态进行检查分析,及时进行数据备份,并定期对备份数据进行恢复性测试验证,对系统运行质量进行分析,并进行维护记录。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。
运维团队通过综合监控系统等实施7*24小时平台设备监控,发现告警,并进行处理,解决问题。使用综合监控系统对系统运行进行实时检查。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。
故障处理
运维团队负责故障发现、故障分析、故障处理工作,在规定时间内,处理完成故障,同时负责调查故障原因,最后编写详细的《故障报告》,包括故障发生的起止时间、原因、现象、处理过程、处理结果和处理经验。如果故障设备或组件为第三方维保,值班工程师负责和第三方对接,迅速解决问题。
软件和补丁维护
操作系统级别的软件和补丁服务
应急预案及演练
为加强风险管理意识,提高应急预案相关人员的应急处置能力,及时发现应急预案可能存在的问题,确保在紧急情况下,应急预案能够真正发挥作用,需要通过周期性的演习演练来不断检验应急体系应急预案的可靠性、有效性和可操作性。
应急预案的演习演练方式、演习演练频度等内容明确如下:
1、演练分为桌面演练和实战演练两种方式,每次演练都应该有相关技术人员全程参与。
2、定期桌面演练,定期实战演练;
3、每次演练结束之后应进行分析和总结,及时完成应急预案的更新、优化和完善。
协助第三方维护
在服务期内,运维团队将配合第三方或服务商进行系统的升级、替换、新部件(模块)安装等,并在实施完成后确认工作正常。
备份
为保证在系统崩溃或停止运行时能尽快恢复系统,将制定相关的数据备份制度。应针对不同系统制定备份方案,应包括备份方法、频率等。数据备份包括定期和不定期备份。重要数据应每月进行全备份和增量备份;不定期备份应该在数据变更后立即进行,更新前的备份按需要保存一定时间。
系统优化
对于巡检或日常维护过程中发现的系统隐患或系统不是处于满意状态,提供相关系统优化的报告。
对于运行情况跟踪,预防性诊断设备存在的隐患,提供系统优化建议,提供系统规范和流程的建议,提供系统优化概要。
硬件设备统计
运维团队将定期对参保设备进行统计。
质量分析报告
运维团队建立数据中心平台的质量分析报告。每月汇总设备运行质量、系统性能等指标,进行数据中心平台运行质量分析,排除质量隐患,不断提高网络运行质量和服务质量。
运维工程师应每周和每月对于数据中心在网系统运行情况作分析,数据采集、统计和分析系统设备的运行数据,形成系统运行周报和月报。
分析报告,包括优化设备运行的绩效,提高系统稳定性的建议,对于系统扩容和优化投资的建议,提供系统运行情况概要,系统中关键设备的运行情况分析,并能识别和解决潜在问题,做好预警,制定并实施相应的优化措施,并对于系统的扩容和项目投资提供建议报告。
运维团队的日常工作中,在系统配置和支持方面的工作内容如下:
运维团队至少每半年进行一次对于每个服务器的系统容量监测的审核,并制定相应的容量规划,主要监测文件系统的空间、数据库的空间资源利用情况,分析资源利用趋势,并提供资源情况月报表。
文件系统空间管理
数据库空间管理
除了依靠数据中心的监控软件,还要求运维团队对服务器、存储、操作系统、数据库、中间件等基础设施进行巡检,并编写巡检报告。通过巡检可以对当前系统的运行状况有一个详细的了解,对巡检中发现的问题可以及时采取预防性措施,降低故障发生的概率,提高系统的可靠性。
巡检工作需要检查以下几个方面:
1.机房环境日常检查内容
机房环境服务力在为机房设备如小型机、网络设备和存储设备等提供一个安全可靠的物理环境,确保机房设备不会因为环境因素导致不能正常运行或损坏。
为了达到此目的,机房环境需具备以下标准:
2.服务器、存储、操作系统、数据库、中间件巡检及巡检报告内容
针对服务器、存储、操作系统、数据库、中间件等比较重要的组件,数据中心制定了按月巡检的计划,需要按照巡检报告的模板进行检查,巡检报告要涵盖以下内容:
系统维护档案,详细记录数据中心相关的设备信息和项目管理信息。在日常运维中,服务报告和技术文档由运维团队的相关人员负责维护和更新。
系统维护档案将分为以下四个部分:
运维团队根据自身的工作内容,在每季度需要对自己的工作进行汇总,并生成《季度运维总结》。
报告中的具体内容包括:
(1) 建立基于数据中心的基础运维服务管理框架体系及运维团队,根据网络的现状提出整体安全规划,包括日常维护计划、安全风险控制计划、应急响应计划等
(2) 提供风险评估、灾难恢复、应急响应、安全培训服务并提供报告
(3) 安全检测
每季度定期对服务范围内的对网络设备、服务器操作系统、数据库系统、应用软件系统的安全策略和安全配置进行检查和测试,从中获得相关的信息、发现系统面临的威胁以及存在的安全性。
(4) 安全评估。
每季度对服务范围内的整体网络系统进行全面、统一的系统性的安全风险评估,识别和控制网络中的关键资产及可能会产生的安全风险,并对所发现的问题提供优化、改进建议。并根据评估的结果为关键资产建立应急响应预案以及细微调整其后安全维护服务所要监控的内容。
(5) 策略优化
根据安全评估的结果每半年对系统策略及网络系统进行优化设计,制定调整系统策略优化、网络拓扑优化、安全域规划与配置、IP规划、VLAN优化等策略,并根据实际情况调整与实施。
(6) 应急预案与演练
根据数据中心的现状,模拟实际灾难发生场景,提供各种应急预案,经过采购人讨论,协助采购人实施演练。
(7) 培训
运维服务期内,安排以运维管理、安全为主题的培训,数量为4~5人次,按要求制定相应的培训计划。
(8) 资料收集存档
参与机房运维涉及的专业第三方机构合同的起草、谈判,与采购人一起对第三方机构进行管理。整理收集涉及到的第三方合同,中间文档、过程记录,备查,按照采购人规定进行提交。
运维团队在处理紧急情况和重大事项时,会启用应急指挥系统:
接口人:应用系统下,各个相关方的固定接口人,一般为项目经理
运维团队:事故发生期间提供直接的技术咨询、指导服务,负责直接处理故障。
二线专家:严重事件由承保的第三方服务商或原厂商的二线专家最快速度到达现场处理事故。
应急响应过程划分为四个主要阶段:应急准备、监测与预警、应急处置措施和总结改进。
为了应对业务系统可能出现的紧急故障,运维团队将定期模拟故障演练服务。
运维团队有一套整体的应急方案,以确保数据中心在系统发生突发事件或灾难情况下能够迅速恢复IT服务,从而保证系统业务的持续运行。根据普遍认可的最佳实践指导原则,IT应急和IT灾难恢复的定义应该是:
“计算机系统灾难是指任何造成计算机系统不能处理业务的时间超过了可容忍程度的事故。应急方案是指计算机系统灾难发生后,按照既定的应急恢复方案在一定时间内恢复系统运行和业务处理的过程。”
为了应对生产系统可能出现的紧急故障(重大、严重故障),数据中心将从事前预防和事后处理两个方面制定紧急故障应处理预案。
(A)事前预防:
应急涉及到多个层面的配合,每方都需要指定专人负责在紧急故障发生时及时沟通
数据中心专家支持团队进行系统风险评估,提出系统整改建议,制定紧急故障应急处理预案
进行一定次数的实际演练,包括后备系统切换测试、备份数据还原测试
对流程进行持续性跟踪,系统出现变更后,重新评估流程的有效性
(B)事后处理:
响应时间:由工程师立即做出响应
故障修复:由经验丰富的专家支持团队提供专人支持,包括搭建测试环境、远程和现场故障诊断和排除;同时启动紧急故障处理流程,按既定程序做应急处理
应急演练:
应急演练计划至少每季度一次进行测试和演练,以保证:
计划内容能够反映当前的状况;
计划的有效性和可操作性;
应急演练人员熟悉应急恢复流程。
所有测试和演练的结果应当依据事先确定好的标准,来判断测试和演练是否成功。如:多长时间恢复服务,会出现多少问题,及问题的严重性等。在测试完成后应记录下结果,并根据需要对应急恢复计划进行修订。针对演练或测试过程中出现的问题和失败应该进行说明并体现在相应的改进计划中。
运维服务事件管理系统是支撑运维管理组织中各运维角色按照规定的运维事件流程开展运维活动的信息化系统。一方面,该系统要支持运维服务提供者对运维服务事件管理对象进行管理,以实现运维服务的能力;另一方面,要支持运维服务提供者按照商定的服务级别协议方便地向运维服务使用者提供运维服务;同时,要支持运维服务管理者对整个运维服务事件的考核、监督和评估。运维服务事件管理工具是构成运行管理体系不可缺少的元素,从被动管理向主动管理转化的重要部分,为整个运行管理体系的高效实施奠定了基础。
监控拓扑
当前数据中心采用了华胜运维监控平台,对数据中心设备进行监测。用户通过客户端登录华胜运维监控平台,查看所有被监控设备的运行情况。当前监控平台支持机房环境、网络设备、存储设备、服务器设备、系统和数据库等组件的监控,支持故障预警等服务。
Linux服务器监控
运维监控平台对Linux服务器的监控支持Agent代理、SNMP和SSH、Telnet非代理三大方式,方便不同用户对服务器全面监控的需求。运维监控平台Linux服务器主要监测指标如下
网络设备监控
华胜运维监控平台可以从各个方面对数据中心的网络设备进行监测和管理,内容包括网络设备的可用性、设备性能、流量管理等等。华胜运维监控平台的网络设备管理系统支持的网络设备,包括各种类型的交换机、路由器、防火墙、VoIP网关设备和其他启用了SNMP协议的网络设备。
华胜运维监控平台监测对象主要包括网络设备(路由器、交换机、防火墙)的状态,如端口,路由器CPU负载等,支持Cisco、华为、港湾、Juniper等各主流厂家的路由器、交换机,支持Netscreen、Cisco、天融信等主流厂商的防火墙等网络安全设备。
网络设备监控
应用监控
华胜运维监控平台的应用监测模块可以全面智能的监测用户各种与应用相关的服务。华胜运维监控平台对各种数据库、中间件和WEB从应用可用性、系统资源占用和性能指标三个方面提供全面的监测管理策略,确保应用的运行正常。
Oracle监控
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞25
添加新评论4 条评论
2024-02-19 23:21
2024-01-01 23:45
2019-10-09 16:31
2018-07-13 17:16
Kevin_1024: @luodi 特别详细有利于后期方案编制,谢谢