升级到3.0.12后leader监控和region监控有些异常

您好:

    1. 请上传 detail-tikv,  overview监控信息

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

       2. 请使用pd-ctl 执行 store 命令输出信息
       3. 从监控看当前总共只有400个region,在数量少的时候,根据您返回的信息我们再确认下。

已经打开了吧

这个是store信息:

[tidb@iZm5eivn9mqkyla2lwxel4Z bin]$ ./pd-ctl store -u http://3.3.3.96:2379
{
  "count": 4,
  "stores": [
    {
      "store": {
        "id": 1,
        "address": "3.3.3.103:20160",
        "version": "3.0.12",
        "state_name": "Up"
      },
      "status": {
        "capacity": "3.437TiB",
        "available": "3.434TiB",
        "leader_count": 12,
        "leader_weight": 1,
        "leader_score": 857,
        "leader_size": 857,
        "region_count": 54,
        "region_weight": 1,
        "region_score": 2778,
        "region_size": 2778,
        "start_ts": "2020-03-25T11:14:42+08:00",
        "last_heartbeat_ts": "2020-03-27T10:16:55.095766627+08:00",
        "uptime": "47h2m13.095766627s"
      }
    },
    {
      "store": {
        "id": 4,
        "address": "3.3.3.104:20160",
        "version": "3.0.12",
        "state_name": "Up"
      },
      "status": {
        "capacity": "3.437TiB",
        "available": "3.434TiB",
        "leader_count": 9,
        "leader_weight": 1,
        "leader_score": 920,
        "leader_size": 920,
        "region_count": 289,
        "region_weight": 1,
        "region_score": 2692,
        "region_size": 2692,
        "start_ts": "2020-03-25T11:14:42+08:00",
        "last_heartbeat_ts": "2020-03-27T10:16:54.897262869+08:00",
        "uptime": "47h2m12.897262869s"
      }
    },
    {
      "store": {
        "id": 5,
        "address": "3.3.3.105:20160",
        "version": "3.0.12",
        "state_name": "Up"
      },
      "status": {
        "capacity": "3.437TiB",
        "available": "3.435TiB",
        "leader_count": 271,
        "leader_weight": 1,
        "leader_score": 768,
        "leader_size": 768,
        "region_count": 304,
        "region_weight": 1,
        "region_score": 1908,
        "region_size": 1908,
        "start_ts": "2020-03-25T11:14:42+08:00",
        "last_heartbeat_ts": "2020-03-27T10:16:55.020652038+08:00",
        "uptime": "47h2m13.020652038s"
      }
    },
    {
      "store": {
        "id": 6,
        "address": "3.3.3.106:20160",
        "version": "3.0.12",
        "state_name": "Up"
      },
      "status": {
        "capacity": "3.437TiB",
        "available": "3.434TiB",
        "leader_count": 25,
        "leader_weight": 1,
        "leader_score": 685,
        "leader_size": 685,
        "region_count": 304,
        "region_weight": 1,
        "region_score": 2312,
        "region_size": 2312,
        "start_ts": "2020-03-25T11:14:42+08:00",
        "last_heartbeat_ts": "2020-03-27T10:16:55.975653277+08:00",
        "uptime": "47h2m13.975653277s"
      }
    }
  ]
}
  1. 麻烦按照上面提供的获取监控的方式,上传一下 Overview/TiKV-Detail/PD 监控面板的监控数据
  2. 在 grep -i welcome tikv.log 看下,tikv 节点是否有重启的情况

2:已经重装一次了,上次并没有重启。

1:这是监控图

上传了监控了

从监控上看, region score 和 leader score 有差异,但是这个应该是因为 region 和 leader 分布不均衡导致的

从前面的回复看 region 似乎有调度失败的情况 监控部分缺少了 PD->Operator->schdule operator finish 的情况,能手动帮忙截一下么 另外麻烦提供一下 PD Leader 节点的日志以及 105 这台节点的 tikv 日志

监控:

105节点kv日志:

tikv.log (1.2 MB)

另外pd有三个节点 ,都要提供日志吗

leader 节点的日志就可以 pd-ctl 执行 member 可以查看当前 leader 是哪一个节点

pd-leader就是103那台

pd.log (716.0 KB)

看监控 region数量少的节点,占用的空间反而更大一些,可以通过 pd-ctl 执行 region 命令看下是否有个别 region 特别大的情况

另外这个 region 是长时间都是不均衡的么

在我们跑数据的时候就是均衡的,等我们跑完了 就开始变成有些很高,有些异常低

不过我们只有一张表数据量比较大,其他数据量都不大,很小

会不会是因为有很多空表,我们这次测试导入了很多空表,有数据的就那么几个表

空表的 region 不含数据,可能会导致这个情况 可以考虑开去跨表 merge 看下

我们只是创建了大量table 并没有清空,也会有这种情况吗?

另外,调整这个参数需要停止集群,改参数,start集群这样操作吗?

是的,需要修改配置文件,然后 rolling_update 滚动重启节点生效

grafana可以改成中文版本吗

一样的 ,更改这两个参数之后升级完了还是一样