乐维社区
作者乐维社区·2023-04-07 14:52
研发工程师·广东乐维软件有限公司

案例解读 | 福建某银行运维一体化平台建设实践

字数 2200阅读 746评论 0赞 0

一、企业介绍

福建某银行成立于1996年,是大陆首家具有台资背景的城市商业银行。2020年该行在上海证券交易所主板上市,成为福建省首家上市的城商行。

该行在重庆和福建省9个设区市设立分行,全行现有75个现代化经营网点,员工约2900人。截至2020年,该行集团资产总额2852亿元,各项主要财务指标均符合监管要求,主体信用评级AAA级。

二、项目背景

随着信息化建设的不断推进,福建某银行数据中心的规模随之扩大,带来的运营管理难度也在不断加大,该行的运维管理者意识到,现有监控体系中,传统产品摩卡监控与原生Zabbix监控磨合难度越来越大,且原生Zabbix的开发成本也越来越高,已经难以满足当前的监控需求

为了提高运营管理效率、降低监控管理的难度,实现故障的快速发现、快速定位,避免或减轻故障对业务、办公造成的损失,建设一套完整、先进的统一运维监控,打造运维监控的“达摩克利斯之剑”势在必行。

三、业务痛点

该行在寻求摩卡替换与原生Zabbix替换过程中找到了乐维,彼时乐维替换原生Zabbix已有非常丰富的经验。乐维方案专家对福建某银行的业务系统、IT资源系统进行全面评估后发现,福建某银行存在以下业务痛点:

  1. IT设备规模大且分散、管理困难,缺少可视化管理系统和可靠的管理手段;
  2. IT环境异构、业务系统繁多,无法快速适应复杂环境下设备的监管;
  3. 故障定位困难,业务系统出现故障波动时,根因排查分析缓慢;
  4. 业务层面:业务负载逐年增加,无法确定业务系统功能完整可用性;业务形态更加多种多样,部署环境愈加复杂,为了适应发展的需求,业务调整日趋频繁,现有的监控体系无法跟业务节点的扩张速度;
  5. 信息技术发展:技术的快速演进,对运维团队提出了更高的要求。

四、解决方案

针对上述业务痛点,乐维为福建某银行量身打造了一套完整的综合运维解决方案,主要包括集中统一的一站式监控体系、多平台数据对接能力及多样化展示大屏。

1. 打造集中统一的一站式监控

乐维针对福建某银行的业务痛点进行分析评估后,确立了以集中统一、自上而下的一站式监控为核心的运维体系。结合大数据智能化分析全景监控视图,使信息系统的资源监控、硬件监控、应用监控、网络监控、业务监控一览无余,达到360度监控无死角,形成统一展现、运维分析的监控平台。由于IT设备规模大且分散导致的管理困难问题也迎刃而解。

同时,当监控系统发现潜在运行风险后,可快速提供故障定位参考信息,以便运维人员及时干预并修复,从而提高应用系统的应急响应能力。

此外,该系统还具有非常广泛的适用性,几乎能够适用所有公司内部的运营监控场景,具有良好的适配度,可快速“上马”。

2. 打破数据孤岛,实现多平台数据对接

针对该行业务系统繁多、IT环境异构带来的数据连通不畅与数据孤岛问题,乐维为其打造了多平台数据对接能力。如此一来,基础软硬件设施数据采集处理后,根据不同功能场景进行简单加工,就可以很方便地对数据进行展示;乐维方案还提供接入部分交易系统数据能力,平台接收相关数据信息后,可以方便在监控面板中汇总展示;监控数据还可以提供给星环分布式大数据平台,利用其数据分析层优势,实现深度学习、故障分析、容量分析等能力,直接或间接地提升目前传统IT运维的能力。

3. 部署多样化展示大屏

针对前监控方案可视化环节薄弱的痛点,乐维还为该行部署了多样化展示大屏,包括全链路监控展示大屏及全景业务墙等。

全链路监控大屏支持省内外各分行支行链路质量监控数据汇总展示,这对运维管理人员无疑是一大利好,运维管理者可以将运维的具体执行等技术细节下放,更多地将心思放在整体稳定性的把控上。

全链路监控大屏还支持专线链路监控功能,针对带宽利用率、接收发送速率、丢包率及其使用率进行监控;支持RPing(网络设备之间发起的ICMP探测)、代理proxy,指标包括:延时、抖动、丢包率等;支持多等级告警阈值设置,支持按秒、分、时、天不同粒度设置指标采集频率;支持查看1个月内每天超阈值次数和通断次数;支持链路关联关系组设置,绑定主备链路并自动生成更高级别并联触发器。这些都能够有效帮助运维人员在故障发生时快速进行根因排查与故障定位。


全景业务墙可以汇总展示公司内部重点业务系统及其业务健康度,可下钻查看详细异常节点、详细指标及告警信息等。将关键的业务系统配置到全景业务墙上,通过对每个业务系统下钻,用户可查看到对应的的整体业务状态,包括业务拓扑图、健康度影响分析、影响的告警事件,方便用户了解业务系统的物理层、中间层、应用层实际运行状况,做好关键业务系统的优化、保障工作常态化开展。


## 五、客户收益

  1. 以业务为核心的统一运维监控实现对该行关键业务流进行动态监测,确保其业务运行可用性及稳定性,可以有效地发现高风险事件,进而降低系统业务风险,避免经济损失;
  2. 通过IT基础设施全面梳理、全栈监控,使得该行的运维效率提升10倍,综合运维成本降低超过50%;
  3. 降低运维人员压力:新的运维监控体系为维护人员提供快速故障发现、故障定位、故障报警乃至故障排除的能力,变传统的被动应答故障处理方式为前瞻式监测的管理方式,便于运维人员及时了解出现的问题,迅速定位问题,并且第一时间解决问题;
  4. 降低管理成本:乐维运维一体化平台的投入使用使该行系统的资源利用率、可靠性、稳定性、性能、配置管理的简易性和快捷性等都得到了相当大的改善,很大程度节省了其软硬件基础设施和人力资源投入。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

X社区推广