PD TSO RPC Duration突然增长很多？如何排查

Tongzhenguo · 2021 年10 月 9 日 02:16

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：
【 TiDB 使用环境】
【概述】国庆期间tidb写入明显较慢，耗时增长2倍；查看graff监控，发现duration和PD TSO RPC Duration都增长较多
【背景】
【现象】
【业务影响】写入较慢，已引起调度延迟；急需定位和优化
【TiDB 版本】4.0.3
【附件】

相关日志和监控

TiDB- Overview 监控

对应模块日志（包含问题前后1小时日志）

h5n1 · 2021 年10 月 9 日 02:36

看下pd leader节点的CPU、pd data路径磁盘IO、tidb到pd 的网络延迟

Tongzhenguo · 2021 年10 月 9 日 02:47

具体是哪几个监控指标呢？

h5n1 · 2021 年10 月 9 日 03:06

overview node-exporter disk-performance这几个页面可以看

Tongzhenguo · 2021 年10 月 9 日 03:34

screencapture-grafana-meitu-int-d-eDbRZpnWk11111-tidb-recommend-overview-2021-10-09-11_33_09.pdf (10.6 MB)

QBin · 2021 年10 月 9 日 03:36

可以先从几个 TSO 的监控先入手排查。具体每一个 TSO 监控的意义可以参考这里：TiDB 写入慢流程排查系列（三）— TiDB Server 写入流程

Tongzhenguo · 2021 年10 月 9 日 05:36

比较急，能直接给出要看哪几个监控指标吗？和简短一点的排查思路

Billmay表妹 · 2021 年10 月 9 日 06:35

如果你需要获得快速 “加急”处理问题的权限，加快问题响应速度， 点击完成认证，获得“加急”处理问题的权限，方便你更快速地解决问题。

nolouch-PingCAP · 2021 年10 月 9 日 06:56

这里有一篇相关监控的排查可以参考：

检查业务写入量是否增加， TiDB CPU 使用是否上升甚至快使用满了。这种情况建议扩 TiDB
检查网络环境是否有变化

Tongzhenguo · 2021 年10 月 12 日 03:32

profile.zip (5.3 MB)

北京大爷 · 2021 年10 月 12 日 03:37

134 这个 tikv 存在明显热点。存在大量 kv scan 排查下大的慢查询

Hacker_xyvCvTKR · 2021 年10 月 12 日 07:26

全部都是按主键update，没有找到其他慢查呢！这个还有其他原因吗？

北京大爷 · 2021 年10 月 13 日 03:07

首先从你的监控看
2 个问题

PD TSO 高这个按照上面的 TSO 排查手册进行排查确认是 TIDB 压力问题导致 TSO 慢还是 PD 压力问题导致 TSO 慢
从 tikv trouble shooting 监控看 134 这个 kv 的压力明显不正常从热点方向排查
包括 dashboard 和 information 重点 hot region 视图来关联排查

特别注意服务混部情况。是否存在 pd tidb tikv 混部情况

Tongzhenguo · 2021 年10 月 13 日 06:29

问题1，确定方向应该是tidb有一台压力比较大；所有sql都会通过host206执行，即使最开始连接到了host206和host134；
问题2，包括 dashboard 和 information 重点 hot region 视图来关联排查；这块有详细的排查步骤吗？dashbord是指【流量可视化】吗？

北京大爷 · 2021 年10 月 13 日 06:31

dashboard 是流量可视化

infromation 参考tidb 官方文档相关视图含义。自行编写 SQL 可以分析现场情况
或在官网搜索热点问题 FAQ

Tongzhenguo · 2021 年10 月 13 日 07:43

还有一个问题，tidb连接数是均匀的，但是sql全部都是集中在了一台机器；
这个能帮忙解释下是啥原因吗？如何均衡sql

北京大爷 · 2021 年10 月 13 日 08:37

看起来是业务测或 LB 的问题
建议看下 LB 的分发规则

TiDB 是无状态的 serving 没有流量调度功能

Tongzhenguo · 2021 年10 月 14 日 06:18

可能您还没有明白我意思，LB和业务侧已经均衡了tidb的连接数，但是SQL还是不均衡的，甚至有一台几乎没有执行SQL

北京大爷 · 2021 年10 月 18 日 03:05

首先 tidb 是无状态服务并不存在流量调度的功能，既然你肯定 LB 已分发了上游应用的 connection

可以通过以下几个方法来排除问题

应用直连 tidb server 检验 tidb 可用性
查看 show processlist 关注上游 host ip 是否存在什么规律
关注上游连接池配置是否存在默认连接数设置过大，其实业务压力并不需要这么多的连接
及设置了 100 个连接但其实每秒最多只有 10 个在工作。连接池的 idle conn 和 running conn

system · 2022 年10 月 31 日 19:21

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。