Skip to content

监控分析

矩尺平台的监控体系覆盖了负载均衡业务中所有关键对象。您可以通过图形化的分析页面快速了解系统运行状态、定位性能瓶颈、回溯历史问题。

监控对象概览

平台目前支持以下四类对象的监控分析:

监控对象从哪里进入核心关注点
虚拟服务[负载流量管理 → 虚拟服务] → 点击名称 → 分析客户端时延、吞吐量、每秒请求数、SSL版本分布
服务器池[负载流量管理 → 服务器池] → 点击名称 → 分析节点健康状态、池内流量分布、连接数
服务器节点在服务器池详情中点击节点 → 分析单节点吞吐量、并发连接、响应时延
设备(转发引擎/管理节点)选中设备 → 分析CPU/内存/磁盘、网络接口流量、会话数

此外还有两个全局视图:

  • 网络地图:一张图展示所有虚拟服务与后端服务器池的连通状态
  • 部署拓扑图:展示转发引擎集群的网络拓扑关系

详细操作步骤请参考用户手册 监控

分析界面通用布局

无论分析哪个对象,分析页面都使用相同的五区域布局。以下以虚拟服务分析页面为例:

监控分析

右上角可切换时间范围:过去1小时、过去6小时、过去1天、过去1周。

监控分析时间

我们将界面划分为 A~E 五个区域:

监控分析区域划分

区域作用交互说明
A 区端到端时延数值面板展示当前所选时间段的客户端时延、服务器时延、应用响应时间、数据传输时间、总时间,直观了解请求"慢在哪里"
B 区主视图(大图)点击 D 区任一小图后在此放大显示。折线或柱状图上方会出现蓝色点(系统事件)、黄色标记(异常),点击标记可在 E 区查看详情
C 区关联资源快捷入口显示当前对象关联的下游资源(如虚拟服务关联的服务器池列表),高亮文字可点击跳转至对应资源的分析页面
D 区指标小图矩阵每个小图是一个监控指标(吞吐量、新建连接、每秒请求等),小标题下方数字为当前值。鼠标划过任一图表,所有图表会联动显示同一时间点的数值,方便对比分析
E 区详情列表点击 B 区的事件/异常标记后,在此展示对应的详情列表(事件列表含时间、资源类型、描述等;异常列表含异常类型、偏差值等)

监控分析E区

使用技巧

鼠标联动是排查问题的关键功能。例如:当吞吐量突然下降时,在吞吐量小图上找到下降的时间点,鼠标移入后所有小图都会定位到同一时刻,您可以同时看到该时刻的时延、连接数、请求数,快速判断根因是"请求变少了"还是"响应变慢了"。

虚拟服务分析

虚拟服务是离客户端最近的一层,其分析页面是日常运维中最常用的监控入口。

分析页面入口

虚拟服务列表 中点击某个虚拟服务的名称,进入详情页后切换到"分析"标签。

虚拟服务分析

核心指标解读

A 区展示了端到端时延的五个细分指标,帮助您定位"请求慢在哪个环节":

指标含义通俗理解
客户端时延客户端到负载均衡的 TCP RTT用户网络到 LB 的"物理距离延迟"
服务器时延负载均衡到后端服务器的 TCP RTTLB 到后端服务器的网络延迟
应用响应LB 转发请求到收到服务器第一个响应报文的间隔后端服务器"思考"花了多久
数据传输服务器传输 HTTP 包体的耗时后端"打包发货"花了多久
总时间整个请求从进 LB 到离开 LB 的总耗时用户感受到的端到端耗时

D 区小图包括:吞吐量(bps)、新建连接数(cps)、每秒请求数(qps)等。C 区列出该虚拟服务下的服务器池名称和健康状态。

虚拟服务拓扑图

在虚拟服务详情页的"拓扑"标签中,可以看到流量从"客户端 → 虚拟服务 → 分发规则 → 服务器节点"的完整链路:

虚拟服务拓扑

连接线颜色含义:绿色 = 使用了 SSL 策略(加密连接),蓝色 = 非 SSL 连接,灰色 = 接口不通。节点闪烁圆点颜色:绿色 = 全通,黄色 = 部分不通(如 bond 口部分链路断开),红色 = 全部不通。

详见 虚拟服务拓扑图

网络地图

网络地图提供全局视角,一张图展示当前集群下所有虚拟服务及其关联的服务器池状态:

网络地图

鼠标悬浮在虚拟服务名称上可查看监听地址。详见 网络地图

服务器池分析

服务器池分析帮助您了解后端服务器的整体健康状态和流量分布。

分析页面入口

服务器池列表 中点击某个服务器池名称进入详情页,切换到"分析"标签。

所有服务器池列表可通过吞吐量对比快速发现异常: 服务器池列表

进入具体服务器池的分析页面: 服务器池分析

关键观察点

  • 吞吐量趋势:如果所有节点的吞吐量曲线趋势一致,说明负载均衡策略正常生效
  • 连接数分布:通过 C 区可查看各节点的连接数,判断是否有"热点节点"(某个节点承担了不成比例的高负载)
  • 健康状态:服务器池名称前的图标颜色 —— 绿色全部健康,黄色部分异常,红色全部不可用

详见 服务器池分析

服务器节点分析

当某个后端服务器表现异常时,需要深入到单节点分析。

进入方式

在服务器池详情页的节点列表中,点击某个节点名称进入该节点详情,切换到"分析"标签。

同一服务器池内的节点可对比查看吞吐量: 服务器池节点概览

单节点分析页面: 服务器节点分析

关键观察点

  • 吞吐量:如果某个节点吞吐量明显低于其他同类节点,可能是该节点性能不足或网络有问题
  • 并发连接数:接近或达到节点配置的最大连接数时,新请求将被拒绝
  • 响应时延:节点响应时延突然升高,可能是后端应用变慢或服务器资源(CPU/内存)紧张

详见 服务器节点分析

设备分析

转发引擎和管理节点是负载均衡平台的"发动机"。设备分析帮助您确保底层基础设施健康。

分析页面入口

转发引擎列表 或管理节点列表中,点击设备名称进入详情页,切换到"分析"标签。

设备管理分析

关键观察点

指标关注场景
CPU 使用率持续高于 80% 需要扩容或优化规则
内存使用率持续增长可能表示内存泄漏
磁盘使用率日志分区满会导致写入失败
网络接口流量接近带宽上限时考虑扩容或分流
会话数接近设备最大会话数时新连接将失败

详见 设备管理分析

部署拓扑图

部署拓扑图用于直观展示整个负载均衡系统中基础设施层面的设备连接关系。与虚拟服务拓扑(展示应用层流量路径)不同,部署拓扑关注的是"有哪些设备、它们如何连接、各设备上跑了哪些服务"。

入口

点击菜单【平台系统 → 基础设施 → 部署拓扑】进入。

部署拓扑

图中展示的关系

部署拓扑图将以下元素组织在一张关系图谱中:

元素说明
管理节点提供 Web 控制台和 API 的管理服务器,图中标注双管理节点的 VIP 信息
转发引擎实际处理流量的引擎设备,标注设备型号、体系架构(x86/ARM)、接口信息
转发引擎集群多台转发引擎组成的逻辑集群,标识集群内设备的主备关系
第三方负载被纳管的第三方负载设备(如 F5、Radware),标注其管理方式(SNMP/SSH)
服务器池各转发引擎上承载的服务器池及健康状态

通过这张图,您可以快速回答以下问题:

  • 当前部署了多少台转发引擎,分别是什么型号?
  • 哪些引擎组成了集群?主备关系是什么?
  • 管理节点是否配置了 HA(双管理节点 VIP)?
  • 每个转发引擎上跑着哪些服务器池?健康状态如何?
  • 是否有第三方负载设备被纳管?

交互操作

  • 鼠标滚轮:放大/缩小视图
  • 鼠标拖拽空白区域:平移视图
  • 鼠标拖拽节点:当节点被遮挡时,可拖动节点调整位置
  • 鼠标悬浮:在设备图标上悬浮可弹出详细信息(设备名称、IP、型号、接口状态等)
  • 点击跳转:点击设备名称可跳转到该设备的详情页面;点击服务器池图标可跳转到服务器池详情页面

使用场景

部署拓扑图最适合在以下场景使用:

  • 新成员熟悉环境:一张图看懂整个系统的物理部署结构
  • 故障排查:当某个服务器池异常时,通过拓扑图快速定位它运行在哪些转发引擎上,再进入对应引擎的分析页面排查
  • 扩容规划:查看各引擎的负载分布,判断是否需要新增引擎或调整服务器池分配

详见 部署拓扑

事件与异常

除了实时监控指标,平台还自动记录两类"非正常情况"来辅助运维:

事件

事件分为两种类型:

  • 系统事件:由平台自动产生,如设备上线/下线、虚拟服务启停、SSL 证书即将过期等。这是系统在"告诉你发生了什么变化"。
  • 操作事件:由管理员在 Web 控制台的操作产生,如新增虚拟服务、修改配置、删除服务器池等。这是系统的"操作审计日志"。

事件在分析页面的 B 区折线图上方以蓝色圆点(系统事件)和绿色圆点(操作事件)标记。点击标记可在 E 区查看详情。

也可以在 监控与告警 → 事件与异常 中集中查询所有事件。

事件列表

异常

异常是系统对监控指标的智能检测:当某个指标在短时间内(15 分钟以内)发生突然的显著上升或下降时,系统自动生成一条异常记录。

异常在分析页面 B 区以黄色标记显示在折线上。点击标记可查看异常的详细数据,包括异常发生时的时序折线图和偏差值。

也可以在 监控与告警 → 事件与异常 中查看全部异常记录。

异常列表

异常 vs 告警

异常是系统自动检测到的指标波动(告诉你"发生了不寻常的事"),告警是基于事件或异常配置的通知规则(帮你"主动通知到人")。本章聚焦监控分析,告警的配置方法请参见用户手册 告警

监控数据表格

除图形化分析外,平台还提供多种表格视图,适合导出报表、数据排序和精确数值查询。

表格类型入口菜单主要字段
虚拟服务监控监控与告警 → 数据统计 → 虚拟服务吞吐量、新建连接、并发连接、请求数
服务器池监控监控与告警 → 数据统计 → 服务器池吞吐量、连接数、健康状态
服务器节点监控监控与告警 → 数据统计 → 服务器节点吞吐量、并发连接、响应时延
设备性能监控监控与告警 → 数据统计 → 设备性能CPU、内存、磁盘、网络吞吐
网络接口监控监控与告警 → 数据统计 → 网络接口接口速率、收发包数、错误包数
设备会话监控监控与告警 → 数据统计 → 设备会话会话总数、新建速率、过期速率
源地址转换监控监控与告警 → 数据统计 → 源地址转换SNAT 地址池使用情况

虚拟服务监控表格

监控表格支持按时间范围筛选、按指标排序,便于快速找到"吞吐量最高/最低"或"连接数最多"的资源。详见 数据统计 章节。