Domino 域监控
Domino 域监控简介
Domino Domain Monitoring(简称 DDM),即 Domino 域监控,是从 Domino R7 开始引入的服务器监控和故障诊断工具。DDM 为管理员提供一种面向特性的服务器状态视图。管理员通过视图信息能快速诊断故障并且解决问题。为了帮助系统管理员降低在系统问题追踪、解决上所花费的时间、精力,DDM 能够自动识别、判断问题,并且对问题进行诊断、分析,提供问题的解决办法。DDM 能够帮助管理员在系统问题进一步危害系统之前,快速的定位、解决它们。
DDM 提供如下功能:
定义了超过 50 个可设置的监控,可针对 Domino 服务器的各个功能区域进行主动监控。同时为探测配置提供缺省设置,使设置更轻松。快速发现并报告关键的服务器和客户机问题,并在多个功能区域中确定可能的原因。提供自顶向下、面向功能的域状态视图,能选择性地查看状态的详细信息。提供可视化的指示器,用于显示哪些问题最重要,哪些问题已解决,哪些问题还未解决。提供补救措施和指向数据库的链接,以解决所报告的问题。Domino 域监控模块
DDM 包含五个不同的模块:事件、探测、DDM 服务器收集层次结构、过滤器、相关数据库。其中,事件是 DDM 收集的服务器状态信息的基本单元;探测用于监控 Domino 服务器状态并且生成事件;服务器收集层次结构用于收集一个域中所有服务器上的事件;过滤器用于过滤掉不需要的事件类型;相关数据库包含了“监控配置”数据库(EVENTS4.NSF)和“Domino 域监控”数据库(DDM.NSF)。
事件是 DDM 监控的数据的表现形式。Domino 服务器运行时发生的每件事情都可以是一个事件。事件不仅可以表示系统正在顺畅地工作、处理数据和执行任务,也可以表示系统可能由于未处理数据或未执行所需的任务而导致功能失常。通过“Domino 域监控”数据库(DDM.NSF)可查看 DDM 事件,检查所报告的 DDM 事件可能的原因和可能的解决方案,打开指向可解决所报告事件的相应数据库的链接。DDM 中的事件主要包含两种:增强事件和简单事件。增强事件包括“DDM 探测”文档生成的事件,Domino 事件生成器生成的事件,或者在 DDM 事件报告中出现的带有特定目标信息的任何其他事件。目标信息包括服务器、数据库、代理或用户指定的目标。简单事件就是与特定目标信息无关或不包含特定目标信息的任何事件。
事件按照严重度可以划分为 5 个等级,从高到低依次为 “致命”、“失败”、“警告(高)”、“警告(低)”、“一般”。其中“致命”表示系统即将崩溃,“失败”表示不会引起系统崩溃的严重失败,“警告(高)”表示需要干预的功能损失,“警告(低)”表示性能降低,“一般”表示系统的状态消息。事件的严重度可能会发生变化。
事件按不同的状态分为 “打开”、“关闭”、“永久关闭”。“打开”表示事件具有非“一般”严重性,并且管理员尚未关闭此事件,当事件指向的服务器问题被解决后,打开的事件会自动变成“关闭”。“关闭”表示事件具有“一般”严重性,或者管理员已关闭该事件,如果关闭的事件以后报告为非“一般”严重性,事件状态将变为“打开”。“永久关闭”表示管理员已将此事件标记为永久关闭。这些事件将永远不会自动重新开启,但是管理员可以重新打开或者将其指定为“关闭”。
图显示了一个处于打开状态的事件:从图中可以看到该事件处于“打开”状态,严重度为“警告(高)”,事件的起因以及解决方案。
查看大图。
探测是一种独立的检查或一组检查。它们本质上是一段段基于条件触发的代码,被植入到服务器的代码中。服务器运行时的状态一旦满足探测的触发条件时,探测代码被触发并且执行,以事件的形式记录下当前服务器的状态。所有的事件都存放在服务器本地的 “Domino 域监控”数据库(DDM.NSF)中。
打开被监控的 Domino 服务器上的“监控配置”数据库(EVENTS4.NSF)数据库,可以创建新的探测或者修改已有的探测配置。DDM 针对不同功能和模块,创建了不同种类的探测,包括管理探测、应用程序代码探测、数据库探测、目录探测、消息探测、操作系统探测、复制探测、安全性探测、服务器探测和网络探测。在性能监控方面,我们首先要关注的是 Domino 服务器的一些关键性能指标,包括 CPU 、内存、磁盘、网络等使用情况,因此,我们创建一些操作系统探测来监控。操作系统探测有四个子类型:CPU 探测、内存探测、磁盘探测和网络探测。以内存探测为例,如图 6,选择监控范围为 “All Servers in the domain”,操作系统为 “Windows”,内存阈值为小于 10MB 时产生严重度为警告(高)的事件,在 10MB 与 50MB 之间时产生严重度为警告(低)的事件。这样在系统运行时出现内存不足时,DDM 会生成警告事件。
查看大图。
监控 Domino 服务器上的操作系统的主要指标,能从总体上获得服务器的性能状况。为了进一步分析 Domino 各项服务的具体性能,我们还需要添加其他与性能有关的探测。其中比较重要的是应用程序代码探测。应用程序代码探测监控代理调度和代理使用的资源。代理包括代理管理器运行的基于服务器的定时代理,以及 HTTP 进程运行的基于服务器的 Web 代理。应用程序代码探测同样有几个子类型:
跟不上调度的代理:根据当天使用时间的最大数量,确定哪些代理已经落后于调度。按 CPU 使用量分级的代理:生成当天 CPU 使用量最大的 100 个代理的列表。按内存使用量分级的代理:跟踪 LotusScript 和 Java 代理的内存使用。长时间运行的代理:可以确定潜在的失控代理,生成一个运行时间最长的的代理的分级列表。其他类型的代理探测:不需要进行任何配置,会始终运行。代理安全性错误因设计更新任务而禁用的代理超过最长运行时间非正常终止的代理在没有全文索引的数据库上执行全文搜索操作图 7 显示了一个监控代理 CPU 使用量的探测,它监控 HTTP 进程运行的 Web 代理,按照该代理在运行过程中 CPU 的使用量,设置不同的阈值和事件严重度。
查看大图。
此外,还有一些分布在不同类型中的子类型探测,从一些角度反映了当前 Domino 某个模块的性能状态。图 8 描述的是消息探测中的邮件流统计检查探测,它用于监控 Domino 服务器上的邮件数量,并检查在 MAIL.BOX 文件中的邮件消息数量是否超过路由器可以处理的邮件消息数量。如果超出处理能力,那么邮件就不能及时被传递,产生性能问题。
查看大图。
当 DDM 探测在服务器上运行时,会产生事件报告给该服务器上的“Domino 域监控”数据库(DDM.NSF)。通过定义 DDM 服务器收集层次结构,我们可以将数据集合到少量服务器上,避免每次都需要在每个服务器上访问每个“Domino 域监控”数据库来检查探测结果。
使用“监控配置”数据库(EVENTS4.NSF),可以创建和管理 DDM 服务器收集层次结构。可以指定一个服务器收集所有的 DDM 事件数据,也可以定义定制的 DDM 服务器收集层次结构,该结构由多个收集服务器组成,也可以由多个收集服务器和多个服务器层组成。与 DDM 过滤器相结合,可以过滤掉不需要收集的事件数据,使性能监控结果更加清晰。