TIKV 各节点cpu负载均衡但是磁盘io不均衡

TiDBer_WZnVC06e · 2022 年4 月 11 日 08:20

调过慢节点的leader权重，没什么效果。下面图第三个就是现在的慢节点

TiDBer_WZnVC06e · 2022 年4 月 11 日 08:25

目前主要的查询就是insert，在16:00左右开了一个表的写入，io就变的异常了。这个表字段会特别大，不知道有没有影响。但是从另一个角度，每个raft member都是会写相同数据的，不明白为啥单这个节点异常

各个节点 iostat，慢节点是006

h5n1 · 2022 年4 月 11 日 08:32

你的机器是物理机还是云主机

TiDBer_WZnVC06e · 2022 年4 月 11 日 08:32

云主机

h5n1 · 2022 年4 月 11 日 08:35

看下参数show variables like ‘%analzye%’, tidb日志搜索下auto analyze trigger看看有分析任务在跑不。

TiDBer_WZnVC06e · 2022 年4 月 11 日 08:38

过去一小时中的日志中没有搜到这个关键字

h5n1 · 2022 年4 月 11 日 08:39

analyze 写错了，你搜auto analyze

TiDBer_WZnVC06e · 2022 年4 月 11 日 08:40

analyze 也搜不到。。

h5n1 · 2022 年4 月 11 日 09:00

看过云主机的系统监控没，IO是什么样的

TiDBer_WZnVC06e · 2022 年4 月 11 日 09:15

这是其中两台，下面的是慢节点

h5n1 · 2022 年4 月 11 日 09:20

看你这个截图的的话正常情况这几个tikv的io都是均衡的只是在这个表insert时导致不均衡， insert的create table发下？是否有递增类型的字段

TiDBer_WZnVC06e · 2022 年4 月 11 日 09:25

是的，从pd的各个store的流量和tikv的读写流量也能看出来差距不是很大。。

createTable.sql (6.8 KB)

TiDBer_jYQINSnf · 2022 年4 月 11 日 10:01

登录pd, 执行 pd-ctl region topread
pd-ctl region topwrite

TiDBer_WZnVC06e · 2022 年4 月 12 日 03:37

好的，目前去掉了其中一个大字段之后有一定的效果，慢节点的io相比其它节点没有那么显著了。。。

Hacker_xUwtuKxa · 2022 年4 月 12 日 04:30

看来是大字段的影响？

TiDBer_WZnVC06e · 2022 年4 月 12 日 04:35

从现象对比来看有这个可能性，rootcause还没有找到

Hacker_xUwtuKxa · 2022 年4 月 12 日 06:12

至少也应该是有3个kv实例io有影响，但只体现1个，还是很奇怪。

TiDBer_WZnVC06e · 2022 年4 月 12 日 06:47

我这边也做过更具体的写入流程分析，发现各个节点的kv RocksDB写入基本差不多，raft RocksDB写入相差较大

qizheng · 2022 年4 月 14 日 08:15

从上面的热力图看到，有一条明亮的斜线，可以确认是否写流量以及跟大字段所在的表或索引有关
https://docs.pingcap.com/zh/tidb/stable/dashboard-key-visualizer#明亮斜线需要关注业务模式

上面的监控，一开始是 basic-tikv-1 相关 duration 较高，后面转移到 basic-tikv-4 这个新扩容的 tikv，可能与热点分布有关，可以查询 tidb_hot_regions 确认是否写热点 https://docs.pingcap.com/zh/tidb/stable/information-schema-tidb-hot-regions#tidb_hot_regions

TiDBer_WZnVC06e · 2022 年4 月 14 日 14:56

您好，热力图是最开始使用自增主键会有，之后修改为了AUTO_RANDOM。这边把慢的节点下掉了之后观察了7 8 个小时了，数据库整体RT好了几倍,也没有拖慢整体响应的tikv节点出现，所以感觉不像是热点而是这个慢节点 raft 有什么问题，而且从PD这边的监控来看各个store的流量是差不多的。目前不确定之后扩容会不会有新的慢节点出现(之前是有这个现象)。