在Alert界面，我的TiDB集群经常会报not_leader的警告，大佬们指点一下……

wangcc · 2020 年7 月 19 日 08:33

这是告警界面的显示：

这是当前时间点相应IP地址的节点（TIKV）的日志：

来了老弟 · 2020 年7 月 19 日 13:21

可以根据文档看下报错解释，not leader 错误，不知对业务是否有造成影响，数量较少可以忽略，一般 tidb这边会有 backoff 重试机制，业务是无感知的

wangcc · 2020 年7 月 20 日 00:05

谢谢这位老师，这错误出现次数挺多的，每隔两三个小时都会有一次。目前正在向集群里拉数据，业务那边反应写入数据经常会报错，至于正在写入的那条数据报错以后是否写入成功了，我再去和业务那边复查一下，如果写入成功就先忽略掉它。不过最近又开始伴随着这个错误：

可能就是您说的backoff机制，但是报错了……估计重试之后要么查询失败，要么写入失败可能性更大。
对了，您说的文档是指的那一部分文档有关于报错的解释，我没找到来着

来了老弟 · 2020 年7 月 20 日 01:59

https://docs.pingcap.com/zh/tidb/stable/alert-rules#tikv_coprocessor_request_error

此报错应该是 tikv 重试在规定时间内超过一定次数了，已为失败的操作，该事务应该会在前端报错了。可以先验证下数据是否一致吧，如果还一直有此类的报错产生，可以发一下报错时间点的 tikv.log 和 tidb.log，先看下。

wangcc · 2020 年7 月 21 日 02:26

仔细检查了一下，数据暂时没有发现丢失，或者重要数据暂时没有问题。不过我略担心以后会出问题，因为我发现虽然告警界面展示的告警信息not_leader不多，几个小时才发生一次，但是我发现日志里特别多，几乎每几分钟都在不停的warn，日志如下：

我没有明白为什么它好像在不停的切换leader，测试集群、线上集群都有这个现象……这是个正常现象吗？

来了老弟 · 2020 年7 月 21 日 03:04

可以尝试使用 tidb performance map 排查看下
https://github.com/pingcap/tidb-map/blob/master/maps/diagnose-map.md#72-tikv

wangcc · 2020 年7 月 21 日 03:07

再继续观察吧，这日志总感觉不是特别正常，一水的都是切换leader，完了warn not_leader……

来了老弟 · 2020 年7 月 21 日 03:07

ok，看下上面的链接，有疑问可以继续跟帖

wangcc · 2020 年7 月 21 日 03:08

好的，谢谢，我去瞅瞅

来了老弟 · 2020 年7 月 21 日 03:09

wish-PingCAP · 2020 年7 月 22 日 04:35

Hi, 频繁写入的时候 not leader 数量增多是比较正常的，对于 not leader TiDB 内部会重试，not leader 也不会导致已写入成功的数据丢失。

wangcc · 2020 年7 月 22 日 08:26

了解了，谢谢。对了，再问一个问题，我线上集群的Grafana 登陆不上去了，我没记得有账户密码，但是让我输入账户密码才能登陆，我输入数据库的root账户和对应的密码不行，点忘记密码说发邮件重置，完了我填了我的邮箱却没在邮箱里收到重置密码的邮件……就很尴尬，更尴尬的是测试集群的Grafana 界面想怎么进就怎么进……您这边有什么办法吗？

来了老弟 · 2020 年7 月 22 日 09:12

默认账号密码为 admin admin 试下。

wangcc · 2020 年7 月 23 日 00:36

谢谢，就是这个默认密码，是我傻了，测试集群用过，正式集群给忘了……

来了老弟 · 2020 年7 月 23 日 02:54

嗯，好的

system · 2022 年10 月 31 日 19:14

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。