PD监控面板一些异常指标,能否帮忙提供一下排查的思路

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:2.1.19
  • 【问题描述】:在日常监控中,PD面板上两个监控指标数据不太正常,能否帮忙提供一下排查思路。

目前TiDB开启了region merge功能,正在进行merge。并且TIDB日志中存在get timestamp too slow现象。

多谢

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

这个和开启 region merge 关系不大,见按照一下流程检查:

  1. TiDB 到 PD 的网络的是否正常,延迟或稳定性;
  2. 检查 TiDB log 具体的日志情况,get timestamp too slow 可能会伴随着 PD 服务繁忙;
  3. 检查 PD log 中有没有异常的报错。
  1. TiDB 到 PD 的网络的是否正常,延迟或稳定性; 【正常,稳定】
  2. 检查 TiDB log 具体的日志情况,get timestamp too slow 可能会伴随着 PD 服务繁忙; 【TIDB大量报这个错误,我之前在这个版块问过相关问题,目前依然没有解决】
  3. 检查 PD log 中有没有异常的报错。 【PD中的报错日志有warning,主要两类:tcdserver: [read-only range request “key:”/tidb/store/gcworker/saved_safe_point" " with result “range_response_count:1 size:82” took too long (202.503228ms) to execute] 和 [warning] etcdserver: [read-only range request “key:”/pd/6708287016683070374/member/11288963954259967026/leader_priority" " with result “range_response_count:0 size:7” took too long (201.614094ms) to execute]】

确认一下磁盘读写是否有延迟 ? 可以通过 disk-performance 的 dashboard 里面的,通过 disk latency 和 disk load 以及 I/O util 确认磁盘的读写延迟情况,从告警看是从 etcd 读取的信息超时了,这个超时有可能读性能有关系。可以将 PD transfer 到其他的 follower 验证一下,transfer 操作可以通过 pd-ctl 来完成。具体见官方文档。