Filter source是什么意思

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:4.0
  • 【问题描述】:

Grafana中,pd-scheduler-filter source中一直存在replica-checker-store-1-health-filter一项,同时store1在运行过程中把大量leader迁移到了其他store。请问什么原因会导致replica-checker-store-1-health-filter呢?

1、store 1 上的 leader 大量的迁移至其他 store 可能是 store 1 当前比较繁忙,处于非健康状态。replica-checker-store-1-health-filter 的趋势也能从侧面反映这个问题。关于大量的从 store 1 中将 leader 迁移走可能是 store 本身负载比较高,网络通信等问题导致。具体可以查看下 pd leader 的 log 日志,tikv-details 的监控,看下是否能找到有效的信息~~

2、filter soure 面板的说明建议查阅官方文档:

但是leader是从store1迁走的,为什么显示的store1是filter source呢?

存在 leader 从 store1 transfer 到其他节点的现象,建议从 pd leader 的 log 日志,tikv-details 的监控,看下是否能找到有效的信息。

replica-checker-store-1-health-filter 的趋势只是侧面反映出这个 store1 可能状态是有异常的,当 store1 作为 source 时,在进行 replica-checker 的时候,被过滤掉了。

replica-checker-store-1-health-filter 这个监控项本身和 transfer leader 的这个现象不是强关联关系。

日志中有类似这种内容:
[2020/10/15 13:07:59.017 +00:00] [INFO] [cluster.go:499] [“leader changed”] [region-id=54] [from=1] [to=2]
但也没发现更详细的信息(比如change的具体原因)。请问如何发现更多线索呢?

store1 掉 leader,建议看下 pd 到这个 store1 的网络通信情况,以及 store1 本身的情况比如负载,tikv-details 的 grafana 中 store1 的相关 metrics ~~

被 healthFilter 过滤掉有两种情况,1是tikv报busy 2是30分钟以上未上报心跳。这里看起来应该是有busy的情况,可以在TiKV页面确认下是否有busy的情况,以及busy的原因。

看了下server is busy一直是空的…cpu, memory这些metric也没有发现异常

请问server is busy都会监控哪些metric呢?

1、查看问题时间段的 tikv-details --> Error 监控面板整版的内容

2、如果方便,请根据下面的方式将问题时间段 12:30 ~ 13:30 的 tikv-details 以及 pd ,store1 的 node-exporter 监控导出: