TiDB升级到v3.0.3后发现的一些问题

系统版本:CentOS7

TiDB集群从v2.1.14升级到v3.0.3

发现的问题如下:

  1. grafana监控面板中有关tikv的dashboard不显示数据。官方给出的解释是有关tikv的该面板已经下线。但是正确的监控信息应该是什么样的呢?官方文档中似乎没有说明。

  2. Overview中PD部分显示PD Role为Follower,但是通过pt-ctl管理工具查看显示的leader状态。

  3. pd-ctl管理工具无法使用交换模式,只能使用单命令模式。 在v2.1.14版本中是可以正确使用pd-ctl的交换模式

以下回答对应问题顺序。

  1. 官方文档后续会更新 TiKV 监控 dashboard 描述信息
  2. overview dashboard 切换下 instance image
  3. pd-ctl 工具需要加参数 -i 。 eg:
pd-ctl -u http://127.0.0.1:2379 -i

这个官网文档后续也会更新。

感谢官方的快速回复。

第二个问题:overview dashboard中instance中只显示leader节点,所以是不能切换的。 image

image

instance显示的只有leader节点,但是PD Role显示的是follower。

具体可以编辑 PD role 这个监控项看下 value mappings 的设置。

然后,打开 prometheus 页面查看下 pd_server_tso 指标存的数据值 eg: 192.168.1.1:9090

您好:pd_server_tso指标存储数值如下:

在 prometheus 中输入表达式 delta(pd_server_tso{type=“save”}[1m]) 看下结果输出,检查是否与 Grafana 的 value mapping 匹配。

您好:发现了以下问题

在grafana中query的表达式为: count(delta(pd_tso_events{type=“save”}[1m])),该表达式在prometheus中没有任何数据返回。

如果换成表达式count(delta(pd_server_tso{type=“save”}[1m])),在prometheus中返回为1,在grafana中更改后显示节点状态为leader。

所以pd_tso_events应该换成pd_server_tso??

你们 Grafana 中的 query 是pd_tso_events ?是不是有人改动过? 这个 PD role 的监控指标应该是 pd_server_tso。

没有手动改过,v2.1.14升级到v3.0.3后就是这样的。

PD role 监控 query :delta(pd_server_tso{type=“save”,instance="$instance"}[1m])

多谢了

不客气。

直接安装的3.0.7, Grafana 中的 query 还是是pd_tso_events ,看到这个帖子,才知道要改过来:fearful: