延迟突然升高1分钟左右导致业务卡顿问题排查

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】2tidb 3pd 3tikv 2ha
【复现路径】在昨天19点39分的时候延迟升高大概1分钟左右时间,出现业务卡顿,在查看overview的时候发现PD都重新监控,此时IO都正常,日志里面没有error信息,请问此问题如何定位排查,请问pd更换loader会不会导致这个情况,如图所示:
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

看起来像是tikv节点有问题,是否做了stop或者下线节点

此时没有做stop或下线tikv节点,但是之前下线的tikv节点信息又在监控中显示。
Abnormalstores

查看下down 的那台tikv 日志,有啥异常不,看看tikv监控,有啥异常不

pd-ctl 看下store

store里面有下线了tikv节点信息。

什么状态

Down,和这个状态一样
Abnormalstores

pd-ctl store 截图发一下

切换下pd leader 估计能恢复

这个tikv节点之前已经缩容了,不需要这个节点恢复,现在是这个节点信息为啥突然又出现在监控里面了,可能是我之前信息没有清除干净。

我们这边出现过这种问题, pd leader切换到旧节点偶尔会出现,再切回去就好了,感觉是缓存问题

1 个赞