TIKV其中一个节点负载高

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:tidb-3.0.0
  • 【问题描述】: 其中一个tikv节点负载很高,现在一台服务器上起了3个tikv ,3台服务器共9个tikv节点。但是其中一个tikv节点负载很高:

如图:
image

查询响应慢,请问有什么排查思路。

慢 sql里面都是查询同一个表的。

一台机器部署 3 个 TiKV,机器的配置是什么样的,CPU 是多少核?看 coprocessor CPU 是有一个节点有热点,可能已经到瓶颈会出现查询慢问题。具体排查思路:可以看下 tikv.log 找下访问最多的 region ,根据 region 信息拿到表名(curl http://{TiDBIP}:10080/regions/{regionID})从而在慢日志里确定执行的 SQL 信息,对 SQL 进行优化或者对热点 region 进行 split 或者 transfer。默认 coprocessor CPU 是机器的 CPU 的 80%,如果在业务高峰期达到瓶颈了,建议库容 TiKV。

[2019/12/17 16:52:27.425 +08:00] [INFO] [builder.rs:511] [“Coprocessor request cannot be batched”] [reason="[src/coprocessor/dag/builder.rs:60]: Unable to use BatchSimpleAggregationExecutor : [src/coprocessor/dag/aggr_fn/parser.rs:72]: Aggregation function for expr type Sum is not supported: [src/coprocessor/dag/rpn_expr/mod.rs:173]: ScalarFunction CaseWhenInt is not supported in batch mode"] [start_ts=413289086124294173] [2019/12/17 16:52:27.479 +08:00] [INFO] [builder.rs:511] [“Coprocessor request cannot be batched”] [reason="[src/coprocessor/dag/builder.rs:60]: Unable to use BatchSimpleAggregationExecutor : [src/coprocessor/dag/aggr_fn/parser.rs:72]: Aggregation function for expr type Sum is not supported: [src/coprocessor/dag/rpn_expr/mod.rs:173]: ScalarFunction CaseWhenInt is not supported in batch mode"] [start_ts=413289086124294173] [2019/12/17 16:52:27.491 +08:00] [INFO] [builder.rs:511] [“Coprocessor request cannot be batched”] [reason="[src/coprocessor/dag/builder.rs:60]: Unable to use BatchSimpleAggregationExecutor : [src/coprocessor/dag/aggr_fn/parser.rs:72]: Aggregation function for expr type Sum is not supported: [src/coprocessor/dag/rpn_expr/mod.rs:173]: ScalarFunction CaseWhenInt is not supported in batch mode"] [start_ts=413289086124294173]

请问这个具体是指什么函数的语法不支持。tikv log里面大量的日志

检查下你的业务上是否有 类似的函数。

会出现这样错误是什么原因

[2019/12/18 09:28:55.196 +08:00] [ERROR] [endpoint.rs:454] [error-response] [err=“locked primary_lock: 7480000000000000755F698000000000000001013230313931323138FF3530313830393631FF0000000000000000F7 lock_version: 413304759281516563 key: 7480000000000000755F7280000000E14D8AAE lock_ttl: 3088 txn_size: 25”]
[2019/12/18 09:28:55.197 +08:00] [ERROR] [endpoint.rs:454] [error-response] [err=“locked primary_lock: 7480000000000000755F698000000000000001013230313931323138FF3530313830393631FF0000000000000000F7 lock_version: 413304759281516563 key: 7480000000000000755F7280000000E14D8AAE lock_ttl: 3088 txn_size: 25”]
[2019/12/18 09:28:55.200 +08:00] [ERROR] [endpoint.rs:454] [error-response] [err=“locked primary_lock: 7480000000000000755F698000000000000001013230313931323138FF3530313830393631FF0000000000000000F7 lock_version: 413304759281516563 key: 7480000000000000755F7280000000E14D8ACB lock_ttl: 3088 txn_size: 25”]

建议先在 tug 上搜索一下,此类问题很多解答。和上面帖子是不同问题,不同问题建议重新开帖。

可参考:初始化数据失败

不好意思,关于热点tikv,是否可以通过,调整region 分布方式来解决;

热点 tikv ,需要查看下是否是存在热点读写的问题导致。