超融合平台项目上线后,如何对运维工作进行管理安排?

超融合项目上线以后,对运维部门应该如何运维好,从哪些方面进行运维管理安排?

参与18

4同行回答

wykkxwykkx系统架构师某基金公司
企业超融合平台上线后,笔者认为需要从以下几个层面做好运维工作。一是甲方需要指定运维负责人,这个负责人可以是专岗也可以是兼任的岗位,总之要能够有人对平台运维负责;二是运维负责人需要对平台的整体情况有个清晰的认识和掌握,硬件层面需要知道平台的物理部署情况(机房、机柜...显示全部

企业超融合平台上线后,笔者认为需要从以下几个层面做好运维工作。
一是甲方需要指定运维负责人,这个负责人可以是专岗也可以是兼任的岗位,总之要能够有人对平台运维负责;
二是运维负责人需要对平台的整体情况有个清晰的认识和掌握,硬件层面需要知道平台的物理部署情况(机房、机柜、U位、连线情况、物理机的配置情况等),软件层面需要知道平台如何使用,常用的功能有哪些;
三是需要熟练的掌握超融合平台的各项指标信息的具体含义,平台自检的入口在哪里,哪些指标是需要重点关注的,现在很多超融合平台都是有很多指标可以反映出平台的健康状态、容量状态等信息,以便为问题处理和后续建设提供依据;
四是超融合平台一般都会有告警模块,可以将平台的报警信息记录下来,但是一般而言现在大多数公司都有自己的监控报警平台,这里从运维一体化和简易的角度考虑,应该要求超融合平台将自己的报警信息吐到公司已有的监控平台上,统一进行报警管理;
五是运维人员应该经过服务商培训之后能够做到对平台的最合理使用,尽可能避免人工的误操作以及低效操作的发生;
六是定期巡检,甲方的运维负责人应该定期的对平台进行巡检,这里的巡检主要包括物理资源情况巡检、平台端提供的巡检能力的巡检,以及操作体感(例如突然觉得操作很慢,卡顿明显、显示数据有问题等)方面的巡检;还应该要求服务商定情对平台进行更全面的巡检;七是版本升级,一般而言新的版本都会有功能或者非功能性的提升,建议在厂商发布新版后的2-3个月后再进行版本升级。以上七点就是笔者认为运维超融合平台需要做到的事项。

收起
基金 · 2019-05-08
浏览4364
s6dongs6dongit技术咨询顾问东软集团
答:超融合平台项目上线后的日常运维工作包括人员管理、设备管理、安全管理、巡检管理、事件管理、问题管理、变更管理和服务管理等,主要是用于规范超融合平台项目日常运营管理的工作。1、人员管理应根据超融合平台的维护要求配置不同级别的维护人员。主要包括系统管理员、...显示全部

答:超融合平台项目上线后的日常运维工作包括人员管理、设备管理、安全管理、巡检管理、事件管理、问题管理、变更管理和服务管理等,主要是用于规范超融合平台项目日常运营管理的工作。
1、人员管理
应根据超融合平台的维护要求配置不同级别的维护人员。主要包括系统管理员、操作系统管理员、网络管理员、安全管理员和机房管理员等,分别承担超融合平台的各种维护工作。另外,还需要要求超融合厂商提供一些二级专家技术支持,负责对一线运维人员无法解决的问题提供技术支持。
主要人员管理如下:
(1)超融合平台系统管理员负责超融合平台的核心管理和维护工作,解决并记录使用中的的问题,拥有唯一的管理员账号。按照权限分配表在超融合管理系统中分配用户的权限。
(2)操作管理员负责计算和存储资源的分配、虚拟机的创建,操作系统的基础部署和整个超融合系统状态的监控。完成基础的管理和维护工作,对所有申请的请求和操作过程进行管理和记录。
(3)网络管理员负责超融合系统生产网络、通讯网络和管理网络的维护和管理工作,及时发现网络问题并上报给系统管理员。
(4)安全管理员负责超融合平台内的信息安全管理工作,对所有操作行为进行审计,检查操作的合规性,保证客户数据安全和业务安全。
(5)机房管理员负责数据中心机房的管理和维护工作。
一个信息系统中,不同的运维职责不能由同一个人担任。在涉及信息管理人员的应用系统中,最终用户可以兼任应用系统管理员。用户负责人应每定期对上述各管理员的工作进行检查、核对,并及时纠正其错误。
2、设备管理
本项管理工作用以保证超融合平台上线后,相应的X86服务器设备免受安全方面的威胁和环境的危害,降低设备故障的风险,所有对设备的操作必须在明确的程序指引下开展。而且要求在超融合管理平台中开启操作日志审计,记录设备管理过程。另外,在对超融合平台进行扩容时,还应对设备的出入、验货、上电、安装、验收等流程进行管理。
3、安全管理
本项管理工作适用于超融合平台管理操作安全和区域环境安全。超融合平台管理操作安全需要创建不同级别的账号,运维人员不得使用管理员账号进行日常运维管理,最高权限的管理员账号仅限专人使用。区域环境安全包括环境的保持、监控与管理,用以防止对机房正常使用环境的破坏与干扰。具体内容包括使用门禁卡管理和控制人员进出,做好登记记录。
4、巡检管理
日常巡检主要对机房内的超融合平台设备运行状态和环境进行日常巡检工作。具体巡检内容包括:服务器运行状态、网络交换设备状态、环境温度状态、物理安全隐患和水火灾隐患等。
巡检的方式包括使用超融合管理平台在线巡检和机房现场实地巡检相结合的方式,并按照每天/周/月/年做好巡检记录工作,定期提交巡检报告。
5、事件管理
事件管理是指超融合平台在运行过程中出现的造成服务中断或服务质量下降的活动及服务咨询请求。包括超融合平台的软硬件错误或者分布式存储数据故障等。
6、问题管理
超融合平台在日常运维的各个环节中会产生各种不同的事件,某些具有突发性和表面性的事情,可能背后隐藏着根源。问题管理的目标是就是通过一系列规范的环节,找到问题的根源,并形成解决方案。包括对问题的报告、记录、审核、分类、、跟踪、管理等操作具体要求。具体流程包括:问题记录的提交、问题上报、上报后的分析处理问题解决和问题关闭。
7、变更管理
为提高服务水平,解决事件、问题等,需要对超融合平台相关软硬件设备配置进行改变的操作管理。
引起变更的原因包括生产系统变更、网络系统调整、事件或问题引起的变更等等。当生产系统的运行环境将要发生变化时,超融合平台也必须根据新的需求,同步进行变更的申请、审核和实施。
8、服务管理
为了规范对超融合平台运维的各种服务行为,包括对服务的申请、服务的跟踪、服务的考核等,需要对运维服务进行管理。

收起
互联网服务 · 2019-05-14
浏览4716
在超融合环境下,运维工作的安排确实与传统架构有所不同。在传统架构下,很多企业会安排专门的存储管理员、虚拟化管理员;而在超融合环境下这两者已经合为一体,存储和虚拟化实现统一界面管理,也省却了原来集中式存储硬件较为复杂的管理和运维。建议运维工作安排可以将存储管理员...显示全部

在超融合环境下,运维工作的安排确实与传统架构有所不同。

  1. 在传统架构下,很多企业会安排专门的存储管理员、虚拟化管理员;而在超融合环境下这两者已经合为一体,存储和虚拟化实现统一界面管理,也省却了原来集中式存储硬件较为复杂的管理和运维。建议运维工作安排可以将存储管理员和虚拟化管理员合并管理。
  2. 另外做得比较好的超融合平台都有功能丰富的监控分析系统,并且可以支持通过 SNMP 或者 API 集成到第三方监控平台中进行统一管理以及自动报警等,这样可以更有效地提升运维管理水平。
收起
软件开发 · 2019-05-14
浏览4094
michael1983michael1983联盟成员技术总监某证券
对运维内部组织架构可能会有微调,按照技术条线分组的可能需要融合显示全部

对运维内部组织架构可能会有微调,按照技术条线分组的可能需要融合

收起
证券 · 2019-05-09
浏览4153

问题来自

相关问题

问题状态

  • 发布时间:2019-05-08
  • 关注会员:5 人
  • 问题浏览:7275
  • 最近回答:2019-05-14
  • X社区推广