PD TSO RPC Duration突然增长很多?如何排查

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
【概述】国庆期间tidb写入明显较慢,耗时增长2倍;查看graff监控,发现duration和PD TSO RPC Duration都增长较多
【背景】
【现象】
【业务影响】写入较慢,已引起调度延迟;急需定位和优化
【TiDB 版本】4.0.3
【附件】


  1. TiDB- Overview 监控
  • 对应模块日志(包含问题前后1小时日志)
1赞

看下pd leader节点的CPU、pd data路径磁盘IO、tidb到pd 的网络延迟

1赞

具体是哪几个监控指标呢?

1赞

overview node-exporter disk-performance这几个页面可以看

1赞

screencapture-grafana-meitu-int-d-eDbRZpnWk11111-tidb-recommend-overview-2021-10-09-11_33_09.pdf (10.6 MB)

1赞
1赞

比较急,能直接给出要看哪几个监控指标吗?和简短一点的排查思路

1赞
  • 如果你需要获得快速 “加急”处理问题的权限,加快问题响应速度, 点击完成认证,获得“加急”处理问题的权限,方便你更快速地解决问题。
1赞

这里有一篇相关监控的排查可以参考:

  • 检查业务写入量是否增加, TiDB CPU 使用是否上升甚至快使用满了。这种情况建议扩 TiDB
  • 检查网络环境是否有变化
1赞

profile.zip (5.3 MB)

1赞

134 这个 tikv 存在明显热点。 存在大量 kv scan 排查下 大的慢查询

1赞

全部都是按主键update, 没有找到其他慢查呢!这个还有其他原因吗 ?

首先从你的监控看
2 个问题

  1. PD TSO 高 这个按照上面的 TSO 排查手册进行排查 确认是 TIDB 压力问题导致 TSO 慢 还是 PD 压力问题导致 TSO 慢
  2. 从 tikv trouble shooting 监控看 134 这个 kv 的压力明显不正常 从热点方向排查
    包括 dashboard 和 information 重点 hot region 视图来关联排查

特别注意 服务混部情况。是否存在 pd tidb tikv 混部情况

问题1,确定方向应该是tidb有一台压力比较大;所有sql都会通过host206执行,即使最开始连接到了host206和host134;
问题2,包括 dashboard 和 information 重点 hot region 视图来关联排查;这块有详细的排查步骤吗?dashbord是指【流量可视化】吗?

dashboard 是流量可视化

infromation 参考tidb 官方文档 相关视图 含义。自行编写 SQL 可以分析现场情况
或在官网搜索 热点问题 FAQ

还有一个问题,tidb连接数是均匀的,但是sql全部都是集中在了一台机器;
这个能帮忙解释下是啥原因吗?如何均衡sql

看起来是业务测或 LB 的问题
建议看下 LB 的 分发规则

TiDB 是无状态的 serving 没有流量调度功能

可能您还没有明白我意思,LB和业务侧已经均衡了tidb的连接数,但是SQL还是不均衡的,甚至有一台几乎没有执行SQL

首先 tidb 是无状态服务 并不存在 流量调度的功能,既然你肯定 LB 已分发了上游应用的 connection

可以通过以下几个方法来排除问题

  1. 应用直连 tidb server 检验 tidb 可用性
  2. 查看 show processlist 关注上游 host ip 是否存在什么规律
  3. 关注上游连接池配置是否存在 默认连接数设置过大,其实业务压力并不需要这么多的连接
    及 设置了 100 个连接但其实每秒 最多只有 10 个在工作。连接池的 idle conn 和 running conn