TiDB 的问答社区

TiDB 4.0版本告警问题

🪐 TiDB 技术问题

hanson (hanson) 2020 年7 月 17 日 07:31 1

tidb v4.0.0

集群部署是从3.0版本升级至4.0，参数都是默认，没有做修改。现在看tidb内存使用告警，点击链接进去后看到是如下图：

看到阈值是1G，然后在deploy/conf下查看tidb.rules.yml，看到告警阈值是10G

这个告警配置是在这个tidb.rules.yml文件吗？对不上

全新安装4.0.5版本，没找到告警阈值修改地方

Lucien-卢西恩 (路西恩) 2020 年7 月 17 日 07:46 2

麻烦发一下报警的文本信息，我们分析一下。

hanson (hanson) 2020 年7 月 17 日 08:04 3

是提供tidb.rules.yml文件吗？

小王同学 2020 年7 月 17 日 08:30 4

是报警的文本信息哈，麻烦提供下报警的详细内容

hanson (hanson) 2020 年7 月 17 日 09:20 5

请问这个文本怎么获取？不太熟悉

Lucien-卢西恩 (路西恩) 2020 年7 月 17 日 09:53 6

可以发一下告警的内容么？

hanson (hanson) 2020 年7 月 17 日 10:04 7

内容就是上面截图这个链接，还需要什么内容呢？没怎么理解

或者能不能给我一个提取的语句或者命令什么的，我取一下

Lucien-卢西恩 (路西恩) 2020 年7 月 17 日 10:18 8

机器人里面报警是一个链接，链接里面没有具体的报错文本么？想要看一下这个告警是多少的报错阈值。现在只看到是有告警，有告警日志么？

hanson (hanson) 2020 年7 月 17 日 10:30 9

机器人里面看到就一个链接（如上图），没有地方看文本。然后点击链接就是上面的那个监控图，图上有告警阈值

小王同学 2020 年7 月 17 日 13:40 10

如果是报警是上面描述的这个 tidb_memory_abnormal ，那么告警阈值是 10G
https://pingcap.com/docs-cn/stable/alert-rules/#tidb_memory_abnormal

hanson (hanson) 2020 年7 月 20 日 06:09 11

这是刚那会的告警，13：48分的，这个机器人点开链接是下面这个图

从图中看是阈值是1G就告警，然后我拉取最近一小时的tidb内存使用监控，如下图

感觉这告警比较混乱，是1G阈值话，肯定有很多告警。如果是10G阈值的话，那应该没有告警。
监控的相关的配置都是初始化默认的，没有修改过。

hanson (hanson) 2020 年7 月 20 日 06:24 12

还有这个告警，我在 tidb.rules.yml、tikv.rules.yml 都没有找到相关的配置项，不知道这个阈值是哪里配置的？

yilong (yi888long) 2020 年7 月 20 日 07:56 13

点击 edit ，找到具体的属于哪个监控项
继续查看edit，就可以找到：

image896×168 8.54 KB
找到对应的规则介绍：

https://docs.pingcap.com/zh/tidb/stable/alert-rules#tikv_coprocessor_request_wait_seconds

hanson (hanson) 2020 年7 月 20 日 08:27 14

上面那个内存10G告警，我想修改阈值，是直接编辑tidb.rules.yml这个文件，然后重启一下prometheus吗？
重启命令tiup cluster restart dw-cluster -N x.x.x.x:9090是这样吗？

yilong (yi888long) 2020 年7 月 20 日 09:14 15

找到 Prometheus 安装服务器的部署目录的/bin目录下，修改这里的rules文件，之后再重启，多谢。

hanson (hanson) 2020 年7 月 21 日 01:15 16

昨天修改了下内存告警，重启后，告警还是一样的出现。
现在阈值改成如下：

告警还是一样的

然后点开链接如下

这个修改的值没有生效，这是怎么回事呢？

yilong (yi888long) 2020 年7 月 21 日 06:39 17

我看了下 Prometheus 本身就是 10 g，你把 Prometheus 稍后可以改回去，先试试找到 grafana 的机器，修改bin目录下的performance_read.json, 这里我看对应的 value 是 1G，不是 10G，修改后，看看是否成功。如果成功，你之前把 Prometheus 修改为 100G了，改回去。

hanson (hanson) 2020 年7 月 21 日 07:21 18

嗯，改为100G，是想试试修改哪一个文件可以生效。但没成功。

我这是从3.0.11升级至4.0.0的，中控机（监控也安装在此机器上）的deploy目录是：/data/deploy，如上图，没有单独的grafana目录
在/data/deploy/bin这下面找到performance_read.json，打开后如下图

这里也是10G，这也不对

yilong (yi888long) 2020 年7 月 21 日 07:46 19

这里是 1G 吧？

hanson (hanson) 2020 年7 月 21 日 09:55 20

我把 performance_read.json 与 performance_write.json 中的 Heap Memory Usage alert阈值都改成10G，如下图：

但是告警还是依旧，机器人中的链接打开后，阈值还是1G，还是没有修改成功

©2023 TiDB Community. 京ICP备20022552号-5 京公网安备11010802043344号