如何解决银行云管平台项目中的监控整合难点问题?

参与7

1同行回答

light_hu86light_hu86系统工程师某省金融
对于银行业来说,云管平台项目建设完成之后就需要部署平台的监控软件,以便对云管平台现有资源进行监控。由于云管平台有自身的一套运维监控系统,但与企业原有的其它监控软件来说相对独立,无法整合。这就造成了一个中心两套监管系统的尴尬局面,运维人员不得不在两个监控界面上来...显示全部

对于银行业来说,云管平台项目建设完成之后就需要部署平台的监控软件,以便对云管平台现有资源进行监控。由于云管平台有自身的一套运维监控系统,但与企业原有的其它监控软件来说相对独立,无法整合。这就造成了一个中心两套监管系统的尴尬局面,运维人员不得不在两个监控界面上来回切换进行监控。原有的监控软件由于建设较早,覆盖面也比较广,涉及的系统也比较多,在一些功能上也所有优化;同时也关联着告警工单系统、短信提醒等多种措施。但由于新部署的云管系统监控软件相对于传统的监控软件来说相对独立,无法有效地生成告警事件单及短信提醒,造成告警事情处理不及时,影响平台的稳定性和可靠性,同时也可能造成业务故障影响。这也是对多家中心银行带来的痛点问题,因为对于银行来说,监控的范围要覆盖到每一套系统,绝不允许“灯下黑”的现象发生。
对于该问题的产生,主要是由于两套监控软件相对独立,传统的监控软件位于生产网段区,而云管平台监控软件位于带外管理区,两套网络逻辑隔离,互不相通。而要想实现传统监控软件相应的告警处理机制,这就要求云管平台监控软件也需要同工单系统、短信猫等系统也需要进行对接处理。要想实现两套监控软件的整合需要对接的系统较多,耗费的工作量也较大,对于部分中小银行来说仍维持现状,两套监控软件同时进行监控运维,但云管平台的监控软件监控力度有所薄弱。
基于两套监控软件并存的现状出发,我们分析解决该问题的几种思路:
一、重新部署一套新的监控软件,能够整合传统的监控软件和云管平台监控软件,由于两套系统部署在两个网络隔离的网段中,重新部署需要面临着网络的问题,同时重新部署需要耗费大量的人力和财力去采购新的监控软件,去整合现有的各种监控指标,这不亚于对现有的监控进行推倒重来,故此想法可行性不大。
二、将某一套监控软件整合到另一套监控软件中,形成一个统一的监控系统。由于传统的监控软件运行多年,对接的工单、短信系统也已经使用多年,故将云管平台监控软件整合到传统的监控软件中工作量相比就少很多。同样基于整合便捷的考虑,也不必让云管平台监控软件去对接其它第三方系统,利用传统监控软件对接第三方系统成熟的便利性就传统监控软件进行接口打通,将云管平台监控软件告警推送至传统监控软件上,利用传统监控软件来生产工单及短信告警。这就极大节省工作量,只需将告警信息推送至传统监控上即可。

针对以上思路的综合考虑,决定采用第2种方法来进行监控整合。
1、将传统监控软件对接的API接口提取出来发给云管平台监控软件方人员,尤其对告警信息接口对接,进行告警信息的推送。
2、由于两套监控软件网段逻辑隔离,部署一台虚机配置两块网卡,分别与两套网段进行相通,起到跳板机的作用,解决网络隔离的问题,并在跳板机上部署相应的推送程序。
3、将云管平台监控软件上的告警信息通过跳板机推送到传统监控软件上,在传统监控软件上进行告警显示,工单生成及短信提醒等后续告警手段。
通过以上方式将云管平台监控软件的告警信息推送整合到传统监控软件上,使运维人员可以在传统监控软件上直观地查看两套监控软件的告警信息,及时有效地处理各类告警信息,避免监控的死角及“灯下黑”。做到监控有的放矢,保障系统稳定可靠。

收起
银行 · 2019-05-07
浏览1511

相关问题

问题状态

  • 发布时间:2019-05-07
  • 关注会员:2 人
  • 问题浏览:2711
  • 最近回答:2019-05-07
  • X社区推广