TiFlash不可用,同步卡住,且监控页面无数据

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【TiDB 版本】

v4.0.12

【问题描述】

集群共8个tikv节点,在其中三台上做了扩容tiflash操作,最后好像是没起来。


但是 tiup cluster display 的时候,看三个tiflash节点已经是up状态了,在pd-ctl store里看也是up状态。

但是监控 grafana 页面上,三个 tiflash 却是 down,Tiflash-Summary 页面也没有数据。

查看日志未发现报错。

找了一个表执行了 ALTER TABLE db.tb SET TIFLASH REPLICA 2 操作,发现 PROGRESS 一直卡住不动。
其中两个 tiflash 节点 tiflash_cluster_manager.log 日志什么都没有,最后一个节点 tiflash_cluster_manager.log 一直在正常刷,flash_region_count 在刷。

image
发现异常region数在那时候上升。

帮忙看下是什么问题呢


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

1 Like
  • tiup 里面显示 tiflash 的状态就是取 PD 里面 store 的状态,所以两边状态显示一致是符合预期的。
  • 可以再检查一下 tiflash_error.log 以及 tiflash.log 有没有相关的报错。

1,但是为什么监控 grafana 页面上,三个 tiflash 却是 down,Tiflash-Summary 页面也没有数据?
2,查看日志未发现报错。
3,我在 TiFlash 常见问题排查 《TiFlash常见问题排查》 中发现,有提到 伴有down peer 出现是异常现象,但并未提出明确的问题和后续解决方法。

您这面使用的哪个版本的 tiup

1.4.2

帖子描述的应该是两个问题:监控不展示和数据不同步两个。麻烦执行下 :http://${tidb-ip}:${tidb-port}/tiflash/replica 拿下三个节点的信息,同时 select 查下当前 progress 信息以及拿下三个节点的 LOG信息。

curl http://${tidb-ip}:${tidb-port}/tiflash/replica

5.7.25-TiDB-v4.0.126B,’ N%m),IHv*LW
znNmysql_native_passwordnvalid sequence 32 != 1

因为昨天 看 tiflash 的状态不可用,执行 ALTER TABLE db.tb SET TIFLASH REPLICA 2 卡住,同时 !!!《其中一台 CPU 飙升,上机器查看是 tikv-server 进程导致》,然后我执行了 ALTER TABLE db.tb SET TIFLASH REPLICA 0 取消了同步,此台机器 CPU 恢复正常。

需要哪些日志?tiflash.log 有584M。

请按照提供的命令执行下然后拿下信息:
1、curl http://${tidb-ip}:${tidb-status-port}/tiflash/replica
换成每个 tidb-server 的 IP 和 PORT 执行
2、拿下当前 select 查询出来的副本同步信息
3、在 tiflash 部署目录 LOG 目录拿下当前异常时间点的日志信息

能在 prometheus 里面查看一下 tilfash 的状态是否正确。

prometheus → status → target 视图

1,curl_tiflash.txt (585 字节)
2,由于昨天cpu飙升,取消了同步。


3,tiflash_error.log

tiflash.log 昨天下午18点的日志2021053118_tiflash.log (227.7 KB)
以上日志都只取了三台tiflash中的一台。

curl_tiflash.txt 这个文件打不开,麻烦重新提供一份哈。

curl_tiflash.txt (585 字节)
是因为执行结果有乱码吗?五个tidb分别执行了一次直接重定向到文件中的。

打开是乱码

这个是远端机房机器,没有对办公网开放,只能通过grafana看,grafana里面的 prometheus 能看吗

执行结果就是乱码,是客户端设置问题还是?

如果 prometheus 无法登录的话,可以使用 prometheus 的api 进行查看吗

所有的 tidb-server 执行都是乱码吗?tiflash_cluster_manager.log 日志提供下呢?

对,所有tidb-server都是乱码。


昨天执行 SET TIFLASH REPLICA 2 的时候,发现 PROGRESS 卡在了 0.000002…,然后上机器查看,三台机器,只有这一台的 tiflash_cluster_manager.log 有日志,发现端口问题,就把三台机器的 20292 端口放开了,之后看起来 日志正常了,没有报错了,但是 PROGRESS 卡在了 0.000008…tikv-sercer cpu 也飙升了。

乱码的问题看下是不是使用的客户端有问题或者字符集显示设置。先解决不同步的问题,后面再看 CPU 异常问题。

mysql_native_password nvalid sequence 32 != 1
curl返回最后是这样的,是否意味着 tiflash 服务异常,我再看下乱码问题。