TiDB 4.0版本告警问题

tidb v4.0.0

image

集群部署是从3.0版本升级至4.0,参数都是默认,没有做修改。现在看tidb内存使用告警,点击链接进去后看到是如下图:

看到阈值是1G,然后在deploy/conf下查看tidb.rules.yml,看到告警阈值是10G

这个告警配置是在这个tidb.rules.yml文件吗?对不上

麻烦发一下报警的文本信息,我们分析一下。

是提供tidb.rules.yml文件吗?

是报警的文本信息哈,麻烦提供下报警的详细内容

请问这个文本怎么获取?不太熟悉

可以发一下告警的内容么?

内容就是上面截图这个链接,还需要什么内容呢?没怎么理解

或者能不能给我一个提取的语句或者命令什么的,我取一下

机器人里面报警是一个链接,链接里面没有具体的报错文本么 ?想要看一下这个告警是多少的报错阈值。现在只看到是有告警,有告警日志么 ?

机器人里面看到就一个链接(如上图),没有地方看文本。然后点击链接就是上面的那个监控图,图上有告警阈值

如果是报警是上面描述的这个 tidb_memory_abnormal ,那么告警阈值是 10G
https://pingcap.com/docs-cn/stable/alert-rules/#tidb_memory_abnormal

image

这是刚那会的告警,13:48分的,这个机器人点开链接是下面这个图

从图中看是阈值是1G就告警,然后我拉取最近一小时的tidb内存使用监控,如下图

感觉这告警比较混乱,是1G阈值话,肯定有很多告警。如果是10G阈值的话,那应该没有告警。
监控的相关的配置都是初始化默认的,没有修改过。

image

还有这个告警,我在 tidb.rules.yml、tikv.rules.yml 都没有找到相关的配置项,不知道这个阈值是哪里配置的?

  1. 点击 edit ,找到具体的属于哪个监控项
    image

  2. 继续查看edit,就可以找到:

  3. 找到对应的规则介绍:

https://docs.pingcap.com/zh/tidb/stable/alert-rules#tikv_coprocessor_request_wait_seconds

上面那个内存10G告警,我想修改阈值,是直接编辑tidb.rules.yml这个文件,然后重启一下prometheus吗?
重启命令tiup cluster restart dw-cluster -N x.x.x.x:9090是这样吗?

找到 Prometheus 安装服务器的部署目录的/bin目录下,修改这里的rules文件,之后再重启,多谢。

昨天修改了下内存告警,重启后,告警还是一样的出现。
现在阈值改成如下:

告警还是一样的
image

然后点开链接如下

这个修改的值没有生效,这是怎么回事呢?

  1. 我看了下 Prometheus 本身就是 10 g,你把 Prometheus 稍后可以改回去,先试试找到 grafana 的机器,修改bin目录下的performance_read.json, 这里我看对应的 value 是 1G,不是 10G,修改后,看看是否成功。如果成功,你之前把 Prometheus 修改为 100G了,改回去。

嗯,改为100G,是想试试修改哪一个文件可以生效。但没成功。

我这是从3.0.11升级至4.0.0的,中控机(监控也安装在此机器上)的deploy目录是:/data/deploy,如上图,没有单独的grafana目录
在/data/deploy/bin这下面找到performance_read.json,打开后如下图

这里也是10G,这也不对

这里是 1G 吧?

我把 performance_read.json 与 performance_write.json 中的 Heap Memory Usage alert阈值都改成10G,如下图:

但是告警还是依旧,机器人中的链接打开后,阈值还是1G,还是没有修改成功