医疗信息化快速发展,医院数据中心也越来越复杂,硬件、应用、业务系统、数据库的多样性,对于医院信息科自行运维愈发吃力,因此如何通过云自动化运维系统,来帮助医院解决运维难题,将所有医院数据中心集中到一个自动化运维平台中心,24小时集中监控医院软硬件运行状态、统一运维调度管理?是一个值得研究讨论的话题。
这个话题比较大,涉及到基础环境复杂度、多数据中心协同、监控和自动化调度。数据中心是否归属同一单位,各单位间的互相数据安全、网络安全要求是否对等。现有运维是否已相应工具,云运维是升级现有工具还是新建一套云运维平台对问题的解决都有不同的影响。下面尝试以新建云运维平台的思路来做个分享。
首先需要关注的是多数据中心协同问题,如果各数据中心的网络架构是统一规划的那么进行集中式的监控、调度就具备基本条件。反之则需要考虑各中心之间的网络联通与数据交互问题。
以数据中心间网络互通为基础,对监控、自动化调度做简单的描述:
1、需要建立一个相对自动化的配置管理系统/模块,将业务系统、服务器、数据库、中间件等的基本信息进行统一管理。基本-主要是为自动化、监控的基本功能模块提供基础环境信息,如服务器的IP、操作系统类型与版本、中间件类型与版本、数据库类型与版本等。与其所属数据中心信息做关联。
2、对每个数据中心管理对象结合配置信息建立业务系统为单位的运维对象模型,根据实际需要进行CI项扩展。
3、部署相应监控模块,定义各类基础环境所需的基本监控策略,对同类型运维对象进行基本数据采集与监控。个性化对业务属性相关数据进行采集与监控。
4、部署相应自动化调度模块,围绕业务系统建立自动化的调度任务管理与实施。
5、建立相应严格的数据访问控制、自动化访问控制及安全策略。
说实话,感觉这个问题纯粹是好大喜功的领导提出的想法。。。
“小轻快”是当前运维环节的实现目标,如题主所构想的构建一个“分级、跨地域、跨数据中心”的集中运维平台,可以赚很多钱,但未必能用起来!
我之前曾经提出过一个想法,叫做“代码既运维”,各地数据中心采用同样的运维平台,共享一套(或者由总部下发)运维代码(例如ansible的playbook),可以很好的实现各地运维的自主性和灵活性。
当然,如果各地分公司没有运维团队,那就当我上面的话没说:)
最后,题主所提到的“监控”,这个算是监控平台,分级监控平台已经很成熟了,就不放在自动化运维中讨论了,监管控, 自动化运维狭义上只负责管和控。
追加一部分内容:
从项目实现角度来说,先寻找试点,在某个医院数据中心实现一套简单、可靠、好用的运维系统,然后全集团推广,推广后如果有必要,可以在构建一个集中管理平台,将需要管理的信息上收,例如变更记录、动作日志等,最后,如果再有必要,可以在集中平台上开放权限,实现对分中心平台的管控。