grpc监控异常波动问题

今天发现 99% Completed commands duration 指标出现一些问题,波动比平时高出不少

手册参考是5ms以内,但是txn一直比较高,这个该怎么去查找问题

可以检查下 tikv 的负载,pd 与 tikv 的网络情况,是否可以达到 5ms 的要求,是否为万兆网卡之类的,目前对业务上有什么影响吗。

业务上影响暂时不大,倒是有一些update变慢了一点。

pd 与 tikv 的网络情况 需要查看什么指标呢

可以看下 update 语句得形式是什么样子得。具体得执行时间的时多少,请问是否时万兆网卡呢

阿里云的
内网带宽:3.00Gbps

最近业务并没有增长,以前都是很平稳的,就今天开始波动,其他指标也没发现什么异常

我统计了update,变化不明显。

可以在观察一下,此监控含义为 99% pd-server 请求完成时间,也可以检查下 blackbox-exporter 监控中 ping latency ,pd-server 服务器是否有升高

我查看本监控的txn延迟还是比较高

然后查看同一时间 blackbox-exporter 监控中 ping latency

所有服务器的ping latency延迟都没超过1ms,但是txn的延时有26ms

可能和事务的大小有关系,根据之前上下文,可以检查下 update 的批次是否太大了,执行时间具体是多少呢

我们并没有改过业务,业务量也没有增加

这个是这个时间段的update,都是很小的量,而且之前波动都是在5ms之间。
另外一个可能会有影响的是有台tidbserver节点因为内存不足重启过,但是重启过后txn还是比较稳定,知道第二天凌晨2点 txn就开始现在这样波动,一直到现在都是,和以前完全不一样了

可以看下 tikv-detail 中 grpc 的监控

检查过了,没有发现什么特别异常

hi,
看下 pd - etcd 监控是否在当时有访问增多的情况呢?

发现一个问题,这个的波动和txn的波动一致,这个指标是做什么的呢

请将 etcd 的完整监控反馈下,看下 etcd 当时有访问增多的情况呢?

  • 99% Handle transactions duration:99% 的情况下,处理 etcd 事务所需花费的时间

这是这个时间段的,02:00开始出问题的

辛苦放大下,此时的监控

image

这个的确和txn异常想吻合,都是2点过后就有点高了

还需要将监控细化以下,辛苦将黄色线点一下,时间区间不变,避免蓝色线的干扰:
(点一下黄色线,单独显示一下)

两个指标都是同一台服务器的,今天开始已经恢复正常