TiCDC监控看板没有监控数据

【 TiDB 使用环境】
v5.0.3

【 问题】
使用TiCDC同步数据到MySQL,同步任务正常,但是TiCDC监控看板没有数据

监控看板:

但是 TiKV 面板是有数据的

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

2 个赞

请问下你这边 ticdc 是通过什么方式安装的?可以看下 ticdc 所在的节点的监控组件进程是否在正常运行以及日志中是否有报错信息。

1 个赞

您好,cdc是通过tiup的方式安装的

并且 ticdc 所在的节点的监控组件进程运行也是正常的,日志中也没有报错信息,下面是节点的进程截图以及所有日志信息

日志如下:

more node_exporter.log

time=“2021-09-15T16:01:54+08:00” level=info msg=“Starting node_exporter (version=0.17.0, branch=HEAD, revision=f6f6194a436b9a63d0439abc585c76b19a206
b21)” source=“node_exporter.go:82”
time=“2021-09-15T16:01:54+08:00” level=info msg=“Build context (go=go1.11.2, user=root@322511e06ced, date=20181130-15:51:33)” source=“node_exporter.
go:83”
time=“2021-09-15T16:01:54+08:00” level=info msg=“Enabled collectors:” source=“node_exporter.go:90”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - arp" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - bcache" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - bonding" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - buddyinfo" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - conntrack" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - cpu" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - diskstats" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - edac" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - entropy" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - filefd" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - filesystem" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - hwmon" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - infiniband" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - interrupts" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - ipvs" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - loadavg" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - mdadm" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - meminfo" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - meminfo_numa" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - mountstats" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - netclass" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - netdev" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - netstat" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - nfs" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - nfsd" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - sockstat" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - stat" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - systemd" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - tcpstat" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - textfile" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - time" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - timex" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - uname" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - vmstat" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - xfs" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=" - zfs" source=“node_exporter.go:97”
time=“2021-09-15T16:01:54+08:00” level=info msg=“Listening on :9100” source=“node_exporter.go:111”

more blackbox_exporter.log

level=info ts=2021-09-15T08:01:58.024454499Z caller=main.go:213 msg=“Starting blackbox_exporter” version=“(version=0.12.0, branch=HEAD, revision=4a2
2506cf0cf139d9b2f9cde099f0012d9fcabde)”
level=info ts=2021-09-15T08:01:58.025044256Z caller=main.go:220 msg=“Loaded config file”
level=info ts=2021-09-15T08:01:58.025128801Z caller=main.go:324 msg=“Listening on address” address=:9115

1 个赞

你这边安装时 tiup 和 tiup cluster 版本是多少?如果不是最新的可以考虑升级下 tiup cluster 组件,然后重新 reload cdc 节点 tiup cluster reload {cluster-name} -R cdc,看下监控信息是否能恢复正常。

1 个赞

tiup的版本是1.5.2
$ tiup --version
1.5.2 tiup
Go Version: go1.16.5
Git Ref: v1.5.2

cluster 的版本是v5.0.3

1 个赞

tiup cluster --version 的结果麻烦也反馈下

1 个赞

$ tiup cluster --version
Starting component cluster: /home/tidb/.tiup/components/cluster/v1.5.2/tiup-cluster --version
tiup version 1.5.2 tiup
Go Version: go1.16.5
Git Ref: v1.5.2

1 个赞

麻烦看下是否方便将 tiup 和 tiup cluster 升级到最新的 v1.5.6 版本,然后按照上面的命令重新 reload cdc ,看下是不是 tiup 和 tiup cluster 太低导致的问题。

1 个赞

升级tiup 和 tiup cluster 会对线上集群有影响吗?

1 个赞

没有影响,这个是管理工具,和集群没有什么关系,不影响线上集群,不过 reload cdc 时会重启一遍 cdc 组件。

1 个赞

因为我们是离线镜像,并且用的是同一个中控管理所有tidb集群,升级tiup的话,参考官方文档, 在官方下载页面选择对应版本的 TiDB server 离线镜像包(包含 TiUP 离线组件包),这样就对把整个中控的离线包都更新了,除了升级tiup版本还有其他的方案解决这个问题吗?

1 个赞

升级中控机里的 tiup 和 tiup cluster 对于管理集群其实没啥影响的,如果不方便的话,你可以试下直接 reload cdc ,看下监控是否可以恢复

直接 reload cdc的话,监控还没有没有恢复,这是bug吗?还是说其他什么原因呢?

reload promethues 试试。grafana 的数据来源于它。可能因为啥原因没搜集cdc的监控数据。
在cdc主机上查看一下node_exporter和blackbox_exporter是不是在工作。
netstat -ntlp 查看一下当前进程及端口情况。

2 个赞

重新reload promethues之后监控有数据了:joy:,非常感谢

非常感谢两位的协助 @这道题我不会@lileiaab

3 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。