PD监控面板一些异常指标，能否帮忙提供一下排查的思路

snowfall_2010 · 2020 年1 月 8 日 17:15

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：2.1.19
【问题描述】：在日常监控中，PD面板上两个监控指标数据不太正常，能否帮忙提供一下排查思路。

目前TiDB开启了region merge功能，正在进行merge。并且TIDB日志中存在get timestamp too slow现象。

多谢

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

Lucien-卢西恩 · 2020 年1 月 9 日 02:30

这个和开启 region merge 关系不大，见按照一下流程检查：

TiDB 到 PD 的网络的是否正常，延迟或稳定性；
检查 TiDB log 具体的日志情况，get timestamp too slow 可能会伴随着 PD 服务繁忙；
检查 PD log 中有没有异常的报错。

snowfall_2010 · 2020 年1 月 9 日 08:06

TiDB 到 PD 的网络的是否正常，延迟或稳定性；【正常，稳定】
检查 TiDB log 具体的日志情况，get timestamp too slow 可能会伴随着 PD 服务繁忙；【TIDB大量报这个错误，我之前在这个版块问过相关问题，目前依然没有解决】
检查 PD log 中有没有异常的报错。【PD中的报错日志有warning，主要两类：tcdserver: [read-only range request “key:”/tidb/store/gcworker/saved_safe_point" " with result “range_response_count:1 size:82” took too long (202.503228ms) to execute] 和 [warning] etcdserver: [read-only range request “key:”/pd/6708287016683070374/member/11288963954259967026/leader_priority" " with result “range_response_count:0 size:7” took too long (201.614094ms) to execute]】

Lucien-卢西恩 · 2020 年1 月 9 日 14:25

确认一下磁盘读写是否有延迟？可以通过 disk-performance 的 dashboard 里面的，通过 disk latency 和 disk load 以及 I/O util 确认磁盘的读写延迟情况，从告警看是从 etcd 读取的信息超时了，这个超时有可能读性能有关系。可以将 PD transfer 到其他的 follower 验证一下，transfer 操作可以通过 pd-ctl 来完成。具体见官方文档。