TiDB升级到v3.0.3后发现的一些问题

wl21787 · 2019 年9 月 4 日 02:59

系统版本：CentOS7

TiDB集群从v2.1.14升级到v3.0.3

发现的问题如下：

grafana监控面板中有关tikv的dashboard不显示数据。官方给出的解释是有关tikv的该面板已经下线。但是正确的监控信息应该是什么样的呢？官方文档中似乎没有说明。
Overview中PD部分显示PD Role为Follower，但是通过pt-ctl管理工具查看显示的leader状态。

image1068×272 25.6 KB
pd-ctl管理工具无法使用交换模式，只能使用单命令模式。
在v2.1.14版本中是可以正确使用pd-ctl的交换模式

CodeLess-PingCAP · 2019 年9 月 4 日 03:25

以下回答对应问题顺序。

pd-ctl -u http://127.0.0.1:2379 -i

这个官网文档后续也会更新。

wl21787 · 2019 年9 月 4 日 03:31

感谢官方的快速回复。

第二个问题：overview dashboard中instance中只显示leader节点，所以是不能切换的。

instance显示的只有leader节点，但是PD Role显示的是follower。

CodeLess-PingCAP · 2019 年9 月 4 日 03:50

具体可以编辑 PD role 这个监控项看下 value mappings 的设置。

然后，打开 prometheus 页面查看下 pd_server_tso 指标存的数据值
eg: 192.168.1.1:9090

wl21787 · 2019 年9 月 4 日 04:01

您好：pd_server_tso指标存储数值如下：

CodeLess-PingCAP · 2019 年9 月 4 日 05:38

在 prometheus 中输入表达式 delta(pd_server_tso{type=“save”}[1m]) 看下结果输出，检查是否与 Grafana 的 value mapping 匹配。

wl21787 · 2019 年9 月 4 日 06:48

您好：发现了以下问题

在grafana中query的表达式为： count(delta(pd_tso_events{type=“save”}[1m]))，该表达式在prometheus中没有任何数据返回。

如果换成表达式count(delta(pd_server_tso{type=“save”}[1m])),在prometheus中返回为1，在grafana中更改后显示节点状态为leader。

所以pd_tso_events应该换成pd_server_tso？？

CodeLess-PingCAP · 2019 年9 月 4 日 08:00

你们 Grafana 中的 query 是pd_tso_events ？是不是有人改动过？这个 PD role 的监控指标应该是 pd_server_tso。

wl21787 · 2019 年9 月 4 日 08:16

没有手动改过，v2.1.14升级到v3.0.3后就是这样的。

CodeLess-PingCAP · 2019 年9 月 4 日 08:19

PD role 监控 query ：delta(pd_server_tso{type=“save”,instance="$instance"}[1m])

wl21787 · 2019 年9 月 4 日 08:35

多谢了

CodeLess-PingCAP · 2019 年9 月 4 日 08:59

不客气。

pangyana · 2020 年1 月 9 日 09:07

直接安装的3.0.7, Grafana 中的 query 还是是pd_tso_events ，看到这个帖子，才知道要改过来

system · 2022 年10 月 31 日 19:14

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。