老是cdc_mutiple_owners报错,但同步是正常的也没有别的报错

【TiDB 使用环境】生产环境
【TiDB 版本】8.1
【操作系统】redhat7
【部署方式】lxc部署
【集群数据量】800G
【集群节点数】2个cdc server,5个tidb server,3个pd,7个 tikv
【问题复现路径】 差不多每6分钟收到一次报警,但数据同步正常
【遇到的问题:问题现象及影响】老收到cdc_mutiple_owners报错
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】cdc cluster has multiple owners,但通过cdc cli查看只有一个server是true,而且cdc server日志没有报错
cdc cli capture list --server=http://10.18.62.230:8300 或者是 --server=http://10.18.161.84:8300
输出都一样,都是同一个server的is-owner是true
[
{
“id”: “315af090-3f8d-4aa6-98da-17048774654c”,
“is-owner”: false,
“address”: “10.18.62.230:8300”,
“cluster-id”: “default”
},
{
“id”: “d1a7a13b-657d-4d0f-b261-16ef5d634f20”,
“is-owner”: true,
“address”: “10.18.161.84:8300”,
“cluster-id”: “default”
}
]

【其他附件:截图/日志/监控】


看看grafana cdc监控 Ownership history 呢?

你这个告警表达式怎么和官档的不一样?
TiCDC 集群监控报警规则 | TiDB 文档中心

1 个赞

尝试改成 sum(rate(ticdc_owner_ownership_counter[30s])) >= 2 看还会不会误告

1 个赞


调整报警规则后目前不再报警。

我统计了一下ticdc_owner_ownership_counter的值,增速接近1
另外这个指标应该监控的是cdc的owner是否发生切换或者别的变化,而这个报警项确叫多个owner,很容易引起歧义。

1 个赞

嗯嗯 包含多种情况

1 个赞