我的看法是基于流量抓包的监控系统,首先需搭建一套流量采集平台,现阶段有两种比较流行的方式,一是通过修改硬件网卡驱动对数据包从源头就打上标签,然后做流量收集。这种方式的优点是可以从源头排查故障;缺点是对设备厂商要求较高,一般中小银行难以得到厂商定制。据了解,阿里选择的这种方式。二是在TAP设备上实现此类功能,并对流量过滤、消重。优点是实现相对简单;缺点是看不到操作系统层面的网络数据包。
基于流量抓包与基于日志的监控系统形成互补,可以帮助发现应用层以下的一些问题,但由于偏底层,展示的内容不能像基于日志中交易信息那么直观,再加上底层相对稳定,问题偏少,此外在行内建设一套此类系统(包含TAP流量采集网)的成本相对较高,因此会给人性价比低的感觉。
我们的NPM系统上线已有3年的时间,期间排查优化网络问题3个,其他时间出一些运行监控报表。