TiKV server timeout 请帮忙分析一下,是什么原因。

  • 【TiDB 版本】:v3.0.5
  • 【问题描述】:TiKV server timeout

程序在20:01:51报TiKV server timeout,从日志里面看,该tikv节点当时确实有异常,随后自动重启才恢复正常,请大佬分析一下呢。

F0102 20:01:51.073948 13401 dbconnect.go:30] db connect failed Error 9002: TiKV server timeout

详细日志请看附件

tikv.log (267.0 KB)

  1. 日志中存在大量的 request is outdated 报错,可能是 coprocessor 请求过多导致读负载较高,建议检查 tikv 监控 检查 thread cpu,coprocessor,scan key 等情况,比如是否有读热点;
  2. TiKV 日志中过滤出很多 slow query 的报错信息,建议根据 table_id 和 txn_start_ts,到 tidb_slow_query.log 中定位慢 SQL,检查执行计划是否合理或者是否有大的查询扫了过多的 key;

我这边是在做上亿条记录mydump的时候 ,发现tikv cpu飙高了,然后立即停止了mydumper,但是后面tikv的cpu 也不下去,翻看tikv的日志也是同样的问题。这种情况tikv能逐渐自恢复 吗?

请问 cpu 高在停掉 mydumper 之后持续多久了。

此问题比较久,避免混淆可以开新帖这边跟一下

1个小时左右,因为默认并发是4个,后来我调成了1个,dump的时候影响还不大
我们的环境基本是数据量很大,但是qps当时很低很低

mydumper 时,tikv cpu 和内存会有上涨,但是需要具体看下,如果当时保留了日志和可以看到监控截图,建议将其整理以下开新帖这边跟一下,感谢配合