监控Overview-->tikv 中少了节点的CPU 和 raft store CPU 变为0%，然后整个集群就变慢了

xingzhenxiang · 2023 年5 月 11 日 06:57

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】

这是最近出现的情况

tidb菜鸟一只 · 2023 年5 月 11 日 07:46

这是做了什么操作了？

xingzhenxiang · 2023 年5 月 11 日 08:02

没做任何操作啊，只是在频繁出现这个问题以后加入一台服务器，目前看已经完成数据平衡了

h5n1 · 2023 年5 月 11 日 08:48

总共多少store，up store那显示红色

xingzhenxiang · 2023 年5 月 11 日 08:50

这个是v3.1，红色就是正常状态

db_user · 2023 年5 月 11 日 10:14

看一下kv的存储呢，有没有kv的磁盘使用达到70%或以上的

xingzhenxiang · 2023 年5 月 11 日 10:45

最高63%

xingzhenxiang · 2023 年5 月 11 日 11:05

为啥store size 监控和系统df 不一致

xingzhenxiang · 2023 年5 月 12 日 01:20

今天又出现了

db_user · 2023 年5 月 12 日 01:51

你看下df和du的结果一样么，按理说磁盘监控应该是一样的啊

xingzhenxiang · 2023 年5 月 12 日 02:08

df和du 的结果是一样的

有猫万事足 · 2023 年5 月 12 日 02:42

看看对应tikv在对应时间上的tikv.log里面有没有什么警告，错误什么的。也许能提供一些精确的信息。

xingzhenxiang · 2023 年5 月 12 日 03:03

这是包含报错时间段的日志

tikv.log (528.9 KB)

xingzhenxiang · 2023 年5 月 12 日 03:07

这是另外一个节点的日志，同一个机器，同一个node的

tikv1.log (232.2 KB)

有猫万事足 · 2023 年5 月 12 日 04:06

https://docs.pingcap.com/zh/tidb/v4.0/troubleshoot-lock-conflicts

会不会是乐观事务导致的读写冲突？
其中一台出现问题时间段附近是
[2023/05/12 07:56:41.859 +08:00] [WARN] [endpoint.rs:454] [error-response] [err=“locked primary_lock: 7480000000000007575F698000000000000001013336333333333965FF3063653134303634FF3961623338343161FF6336653433663135FF0000000000000000F7 lock_version: 441411017584410636 key: 7480000000000007575F698000000000000003013161633733336630FF6464306134643534FF6234373162383235FF6237333033396266FF0000000000000000F70380000000C400C53B lock_ttl: 3005 txn_size: 1”]
[2023/05/12 07:58:33.637 +08:00] [INFO] [gc_worker.rs:902] [“gc_worker: start auto gc”] [safe_point=441410059277697024]
[2023/05/12 07:58:43.482 +08:00] [INFO] [gc_worker.rs:942] [“gc_worker: finished auto gc”] [processed_regions=15436]
[2023/05/12 08:01:12.898 +08:00] [INFO] [peer.rs:176] [“replicate peer”] [peer_id=360797704] [region_id=259575968]
[2023/05/12 08:01:12.901 +08:00] [INFO] [raft.rs:763] [“[region 259575968] 360797704 became follower at term 0”]

出现locked 以后就有较长一段时间日志什么也没输出，另一台倒是没有类似的情况，但日志中类似的locked报错也不少见。