银行行业企业级监控产品的建设选型、难点及解决方案探讨?

随着互联网金融业务的快速发展,银行业务互联网化,期望突破传统的存贷业务找到新的利润增长点。为此,银行业新建、重构了大量互联网类的业务系统,给系统、网络和应用各条线的运维带来了巨大压力。然而当前银行业运维监控系统的建设仅完成存在性监控的部署,大多数监控数据采用 A...显示全部

随着互联网金融业务的快速发展,银行业务互联网化,期望突破传统的存贷业务找到新的利润增长点。为此,银行业新建、重构了大量互联网类的业务系统,给系统、网络和应用各条线的运维带来了巨大压力。然而当前银行业运维监控系统的建设仅完成存在性监控的部署,大多数监控数据采用 AGENT、SNMP 与系统日志等采样方式获取,数据实时性、精度较低且无法站在全行业务系统的统一管理视角进行监控。即使有的行部署了业务层面的应用监控,选用的监控产品也是五花八门,不同团队又有不同的监控方案。一旦业务系统运行出现问题,交易链路上的网络、系统及业务交易指标相互孤立,缺乏统一的全景展示平台,难以及时找出问题环节。在发生业务故障时,时间往往被耗费在低效的排查工作中,其中的主要问题在于:一旦发生问题,多团队同时开始根据各自经验诊断;缺乏统一视角的证据支持,没有入手点;若无法达成共识,则需要进一步线索进行反复排查。

针对这一问题,之前我行使用的一些监控产品(NPM和BPC)在我行使用效果不太理想,有太多局限了。个人觉得对一些中大银行,还是要有企业级的监控产品和配套的规范,这些规范涉及编码、测试、运维各阶段,且应明确各方人员在监控部署、设计方面的职责分工。

因此,特提出此话题,望各位同行能够给本人答疑解惑,能够告知本人银行业企业级监控产品的建设选型、难点及解决方案,不甚感激!!

收起
参与58

查看其它 9 个回答melody2004的回答

melody2004melody2004系统架构师某城市商业银行

我的看法是基于流量抓包的监控系统,首先需搭建一套流量采集平台,现阶段有两种比较流行的方式,一是通过修改硬件网卡驱动对数据包从源头就打上标签,然后做流量收集。这种方式的优点是可以从源头排查故障;缺点是对设备厂商要求较高,一般中小银行难以得到厂商定制。据了解,阿里选择的这种方式。二是在TAP设备上实现此类功能,并对流量过滤、消重。优点是实现相对简单;缺点是看不到操作系统层面的网络数据包。
基于流量抓包与基于日志的监控系统形成互补,可以帮助发现应用层以下的一些问题,但由于偏底层,展示的内容不能像基于日志中交易信息那么直观,再加上底层相对稳定,问题偏少,此外在行内建设一套此类系统(包含TAP流量采集网)的成本相对较高,因此会给人性价比低的感觉。
我们的NPM系统上线已有3年的时间,期间排查优化网络问题3个,其他时间出一些运行监控报表。

银行 · 2019-11-15
浏览5107
  • 您说的是硬件运行状况方面的监控吧?应用层面的监控贵行是如何做的?
    2019-11-15
  • 网络流量层的监控,排查过因备份系统导致内网流量过大问题、服务器IO中断、网银访问慢等问题。 应用层主要在用BPC抓取数据包拆包抽取数据的方式,tap网络设计部署合理的话,数据还是比较精确的。
    2019-11-15

回答者

melody2004
系统架构师某城市商业银行
擅长领域: 存储灾备分布式系统

melody2004 最近回答过的问题

回答状态

  • 发布时间:2019-11-15
  • 关注会员:13 人
  • 回答浏览:5107
  • X社区推广