阿ken
(Aken)
2021 年5 月 31 日 12:32
1
为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【TiDB 版本】
v4.0.12
【问题描述】
集群共8个tikv节点,在其中三台上做了扩容tiflash操作,最后好像是没起来。
但是 tiup cluster display 的时候,看三个tiflash节点已经是up状态了,在pd-ctl store里看也是up状态。
但是监控 grafana 页面上,三个 tiflash 却是 down,Tiflash-Summary 页面也没有数据。
查看日志未发现报错。
找了一个表执行了 ALTER TABLE db.tb SET TIFLASH REPLICA 2 操作,发现 PROGRESS 一直卡住不动。
其中两个 tiflash 节点 tiflash_cluster_manager.log 日志什么都没有,最后一个节点 tiflash_cluster_manager.log 一直在正常刷,flash_region_count 在刷。
发现异常region数在那时候上升。
帮忙看下是什么问题呢
若提问为性能优化、故障排查 类问题,请下载脚本 运行。终端输出的打印结果,请务必全选 并复制粘贴上传。
1 个赞
阿ken
(Aken)
2021 年6 月 1 日 02:17
3
1,但是为什么监控 grafana 页面上,三个 tiflash 却是 down,Tiflash-Summary 页面也没有数据?
2,查看日志未发现报错。
3,我在 TiFlash 常见问题排查 《TiFlash常见问题排查》 中发现,有提到 伴有down peer 出现是异常现象,但并未提出明确的问题和后续解决方法。
不懂就问
(zhouyueyue)
2021 年6 月 1 日 02:29
6
帖子描述的应该是两个问题:监控不展示和数据不同步两个。麻烦执行下 :http://$ {tidb-ip}:${tidb-port}/tiflash/replica 拿下三个节点的信息,同时 select 查下当前 progress 信息以及拿下三个节点的 LOG信息。
阿ken
(Aken)
2021 年6 月 1 日 02:39
7
curl http://$ {tidb-ip}:${tidb-port}/tiflash/replica
5.7.25-TiDB-v4.0.126B,’ N%m),IHv*LW
znNmysql_native_passwordnvalid sequence 32 != 1
因为昨天 看 tiflash 的状态不可用,执行 ALTER TABLE db.tb SET TIFLASH REPLICA 2 卡住,同时 !!!《其中一台 CPU 飙升,上机器查看是 tikv-server 进程导致》,然后我执行了 ALTER TABLE db.tb SET TIFLASH REPLICA 0 取消了同步,此台机器 CPU 恢复正常。
需要哪些日志?tiflash.log 有584M。
不懂就问
(zhouyueyue)
2021 年6 月 1 日 02:43
8
请按照提供的命令执行下然后拿下信息:
1、curl http://$ {tidb-ip}:${tidb-status-port}/tiflash/replica
换成每个 tidb-server 的 IP 和 PORT 执行
2、拿下当前 select 查询出来的副本同步信息
3、在 tiflash 部署目录 LOG 目录拿下当前异常时间点的日志信息
懂的都懂
(wangtianyi)
2021 年6 月 1 日 03:12
9
能在 prometheus 里面查看一下 tilfash 的状态是否正确。
prometheus → status → target 视图
阿ken
(Aken)
2021 年6 月 1 日 03:12
10
1,curl_tiflash.txt (585 字节)
2,由于昨天cpu飙升,取消了同步。
3,tiflash_error.log
tiflash.log 昨天下午18点的日志
2021053118_tiflash.log (227.7 KB)
以上日志都只取了三台tiflash中的一台。
不懂就问
(zhouyueyue)
2021 年6 月 1 日 03:30
11
curl_tiflash.txt 这个文件打不开,麻烦重新提供一份哈。
阿ken
(Aken)
2021 年6 月 1 日 03:36
12
curl_tiflash.txt (585 字节)
是因为执行结果有乱码吗?五个tidb分别执行了一次直接重定向到文件中的。
阿ken
(Aken)
2021 年6 月 1 日 03:40
14
这个是远端机房机器,没有对办公网开放,只能通过grafana看,grafana里面的 prometheus 能看吗
懂的都懂
(wangtianyi)
2021 年6 月 1 日 03:51
16
如果 prometheus 无法登录的话,可以使用 prometheus 的api 进行查看吗
不懂就问
(zhouyueyue)
2021 年6 月 1 日 04:04
17
所有的 tidb-server 执行都是乱码吗?tiflash_cluster_manager.log 日志提供下呢?
阿ken
(Aken)
2021 年6 月 1 日 04:10
18
对,所有tidb-server都是乱码。
昨天执行 SET TIFLASH REPLICA 2 的时候,发现 PROGRESS 卡在了 0.000002…,然后上机器查看,三台机器,只有这一台的 tiflash_cluster_manager.log 有日志,发现端口问题,就把三台机器的 20292 端口放开了,之后看起来 日志正常了,没有报错了,但是 PROGRESS 卡在了 0.000008…tikv-sercer cpu 也飙升了。
不懂就问
(zhouyueyue)
2021 年6 月 1 日 06:28
19
乱码的问题看下是不是使用的客户端有问题或者字符集显示设置。先解决不同步的问题,后面再看 CPU 异常问题。
阿ken
(Aken)
2021 年6 月 1 日 07:22
20
mysql_native_password nvalid sequence 32 != 1
curl返回最后是这样的,是否意味着 tiflash 服务异常,我再看下乱码问题。