TIKV大量报 get snapshot failed，Request(message: \"to store id 5, mine 4\" store_not_match

Lawrence · 2021 年10 月 28 日 15:31

v4.0.13，tikv刷大量此日志，每分钟几个G无限刷，pd leader cpu 90%多，应该是有大量数据在往tiflash同步，但是为啥tikv无限刷这种日志，20个G瞬间满，清理了又瞬间满

2021/10/28 15:24:03.919 +00:00] [INFO] [process.rs:136] [“get snapshot failed”] [err=“Request(message: "to store id 5, mine 4" store_not_match { request_store_id: 5 actual_store_id: 4 })”] [cid=1520390105]

Kongdom · 2021 年10 月 29 日 01:47

可以设置loglevel为error，就不会记录info的日志了

https://docs.pingcap.com/zh/tidb/stable/tikv-configuration-file#log-level

Lawrence · 2021 年10 月 29 日 02:18

这。。。这不是治标不治本吗。。。问题是为什么会无限刷这种日志，关键词：无限的在刷
且该节点tikv的cpu持续在50%，pd leader cpu 90%以上，从昨晚持续到现在

pd leader 日志：

pd_log.tar.gz (14.7 MB)

xfworld · 2021 年10 月 29 日 02:49

是突然出现的这种情况，还是之前做了什么操作？
能否描述一下场景，这样可以帮助排查问题

Lawrence · 2021 年10 月 29 日 04:55

好像没啥特别的操作，主要的是 tiflash挂了两台，我们把tiflash副本关掉后缩容再扩容回来，然后重新同步tiflash，最开始好像没啥事的，过了3-4个小时开始突然狂刷这种日志，无限的刷，磁盘瞬间被打爆，cpu也一直下不来，后来tiflash都同步完了，这又过了3个多小时了，还是在狂刷这个日志，cpu还是没下来，看pd leader日志感觉好像也没啥任务，但是cpu就是特别高，我把pd leader 这个节点重启了下，pd leader 换到别的节点了，别的节点cpu也飚到80%了，现在已经没有tiflash同步了，还是有问题

应该就是这个tikv在无限请求pd获取snapshot，所以 pd leader 和tikv cpu都很高吧，为什么会出现这种现象呢，现在怎么解决呢

xfworld · 2021 年10 月 29 日 05:32

pd 和 tidb，都在一个节点上么？
你有几个 pd 和tidb的节点，有没有结构拓扑？

Kongdom · 2021 年10 月 29 日 05:33

之前是几个tiflash，下线tiflash需要确保 TiFlash 集群剩余节点数大于等于所有数据表的最大副本数，否则需要修改相关表的 TiFlash 副本数。
并且如果什么都不修改，缩容再扩容之后，tiflash还是之前的。我遇到过，比如我缩容，没有等pending结束，直接清空服务器tiflash数据文件，重新扩容，这个时候监控里还是显示节点正在下线。