测试环境测试tidb集群功能,发现tidb.log有很多警告

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:5.7.25-TiDB-v3.0.1
  • 【问题描述】:
    tidb日志文件中,有大量错误信息

[2020/01/03 15:31:06.920 +08:00] [INFO] [region_cache.go:516] [“switch region leader to specific leader due to kv return NotLeader”] [regionID=5060] [currIdx=0] [leaderStoreID=5]
[2020/01/03 15:31:06.926 +08:00] [INFO] [region_cache.go:516] [“switch region leader to specific leader due to kv return NotLeader”] [regionID=5052] [currIdx=0] [leaderStoreID=5]
[2020/01/03 15:31:08.996 +08:00] [INFO] [coprocessor.go:726] [“[TIME_COP_PROCESS] resp_time:2.659179826s txnStartTS:413672828543696898 region_id:28 store_addr:10.8.48.204:20160”]
[2020/01/03 15:31:09.134 +08:00] [WARN] [client.go:663] [“wait response is cancelled”] [to=10.8.48.204:20160] [cause=“context deadline exceeded”]

上下文日志
tidb_0103.log.tar.gz (31.0 KB)

目前系统中没有任何应用。

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

检查了一下日志发现日志里面有大量的 TIME_COP_PROCESS 以及 load_schema 相关的信息。麻烦检查下:

  1. 当前日志打印时候的 TiKV 的负载,以及 TiKV 的日志是否有异常
  2. 检查 Slowlog 是否有 slow query 。
  3. 是否有定时任务在执行导致 当前 TiDB 节点的负载升高,或者把当前 TiDB 的网卡流量打满。

您好,
1 三个tikv,在出异常日志的时候,tikv2报错。
tikv 1

tikv2

tikv3

2 系统中有slow query,我用pt-query-digest分析了最近12小时的日志,第一条是我手动执行的SQL执行了3次,其他的应该是tidb系统的任务执行的SQL,查询系统表,怎么会产生这么多慢sql呢
slow.log (23.1 KB)

如果内部 SQL 都比较慢的话。那需要检查 TiKV 节点具体的 Workload 。从监控上看下是否存在异常。

请问workload如何查看呢,我在grafana的tidb_detail中,并没有看到这项监控呢

就是要分析一下 TiKV 节点的监控看下是否有异常。具体的关键监控指标可以看下:
https://pingcap.com/docs-cn/stable/reference/key-monitoring-metrics/tikv-dashboard/#tikv-重要监控指标详解