tikv加索引时挂了一个节点,一直无法启动

zzw6776 · 2021 年12 月 6 日 01:16

操作就是加索引,然后突然有个tikv挂了看监控一直是在被拉,但是都没拉起来
请问,这个该怎么排查

xfworld · 2021 年12 月 6 日 01:48

查看一下，tikv 这个节点的日志

看看日志内的描述是什么

zzw6776 · 2021 年12 月 6 日 01:57

tikvlog.7z (7.0 MB)
你好我把那段时间的日志拿出来来了麻烦看下

xfworld · 2021 年12 月 6 日 02:09

看到日志了，就是因为 97957474 applying snapshot failed 不停的在重启…

xfworld · 2021 年12 月 6 日 02:11

tikv 的配置可以贴出来么？

zzw6776 · 2021 年12 月 6 日 02:29

是指这个配置么

[coprocessor]
split-region-on-table = false

[readpool]
[readpool.coprocessor]
use-unified-pool = true
[readpool.storage]
use-unified-pool = true
[readpool.unified]
max-thread-count = 21

[rocksdb]
[rocksdb.defaultcf]
block-cache-size = “20000MB”
[rocksdb.lockcf]
block-cache-size = “500MB”
[rocksdb.writecf]
block-cache-size = “13000MB”

[server]
[server.labels]
host = “tikv147”

[storage]
[storage.block-cache]
capacity = “42GB”
shared = true

xfworld · 2021 年12 月 6 日 02:38

对，这个节点的硬件配置是什么样的？如果配置不合理，也会造成不断重启的

zzw6776 · 2021 年12 月 6 日 02:39

一台物理机 80核 256g内存 3个盘分别部署2个tikv和一个tiflash 两个tikv都是上面的配置, tiflash保持默认配置

xfworld · 2021 年12 月 6 日 02:46

storage.block-cache.capacity = (MEM_TOTAL * 0.5 / TiKV 实例数量)

`shared block cache` 的大小。正常情况下应设置为系统全部内存的 30%-50%。

假设 tiflash 是占用内存 128G，那另外两台tikv 就一共 128G
按照以上的公式来计算， 32G 会比较好…

zzw6776 · 2021 年12 月 6 日 02:48

这个大了应该不是这个tikv起不起来的原因吧,因为这个机器上另一个节点是正常的,其他机器的两个节点也是正常的,而且机器的内存占用率没上去

zzw6776 · 2021 年12 月 6 日 02:50

这是这个节点现在最新的日志

xfworld · 2021 年12 月 6 日 02:56

这是 raft 的同步失败了

其他的节点没问题，对吧？

现在集群的 region 的leader 数量变化大不大？

@不懂就问来支持下

zzw6776 · 2021 年12 月 6 日 03:03

是的而且丢失的region看监控应该是已经补起来了这条蓝色的线是剩下147的那个tikv 正好是其他机器tikv的两倍

小王同学Plus · 2021 年12 月 6 日 08:33

你好，可以确认第一次 tikv 重启的时间嘛，不清楚是不是 [2021/12/03 11:10:13.437 +08:00] 时间，还想再确认下。

辛苦帮忙确认下
1.麻烦把这台 TiKV 第一次 panic 的前后的日志都上传一下吧，方便我们定位原因和提供解决方法
2.同时麻烦对这个 TiKV 当前 data/snap 目录 ls -lh|grep 97957472 并贴一下结果
排查思路参考该帖子 tikv日志内不断重启失败

如果是线上业务，需要优先恢复业务的话，可以尝试先缩容再扩容

zzw6776 · 2021 年12 月 6 日 08:47

从监控上来看重启的时间就是在11:10分左右
我把那一天的日志都上传了
log.7z (59.3 MB)
然后ls的结果是空的

那个帖子似乎没有什么有用信息吧,和你让我做的操作是一样的
是线上的业务但是如果缩容了现场就没了吧你们看下需要其他信息吗,如果不需要我就缩容扩容了
补充个信息,我在加索引的时候调整过这两个参数,原先是之前是被调整成了20和2048 我缩小了值,具体缩小到多少忘记了
set global tidb_ddl_reorg_worker_cnt = 20
set global tidb_ddl_reorg_batch_size = 2048

小王同学Plus · 2021 年12 月 6 日 09:18

在帮忙确认下 region 97957472 的情况，可以在 pd-ctl 中执行 region 97957472 看下

zzw6776 · 2021 年12 月 6 日 09:19

小王同学Plus · 2021 年12 月 6 日 09:22

另外集群版本是 5.2.2 么？

再拿一下 tikv-details 和 tidb 的完整监控吧，从加索引开始的时间，到 14:00 就行。

用这个 [FAQ] Grafana Metrics 页面的导出和导入工具导出下。

zzw6776 · 2021 年12 月 6 日 09:34

是的 5.2.2
tidb-online-TiKV-Details_2021-12-06T09_31_46.817Z.json (41.0 MB) tidb-online-TiDB_2021-12-06T09_32_48.218Z.json (9.6 MB)

zzw6776 · 2021 年12 月 7 日 01:41

hello 有后续吗