升级4.0.10后,tikv全部重启

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:v4.0.10
    tikv v4.0.10
    pd v4.0.10
    tidb v4.0.7 (业务暂时无法断开连接,暂时不能动)

  • 【问题描述】:从v4.0.7 升级到v4.0.10后, tikv 过一段时间全部重启。
    1)业务数据量升级前后没有变化

2)tikv 单独配置了这个参数,之前在4.0.7 跑一直稳定
[storage.block-cache]
capacity = “50GiB”

3)grafana 监控看到,19号进行的升级,后面的内存趋势,都是tikv集群重启后

4)tikv日志

系统日志
发现有kill信息

docker 异常退出日志
thread ‘debugger0’ has overflowed its stack
fatal runtime error: stack overflow

/var/log/messages

你这边提供的内容都不是很详细,麻烦按照下面内容详细提供下,多谢。

1.按照上面的消息,提供升级 前后的 tikv-details 的监控,标明升级时间,最好前后监控 12 h 左右

2.提供 tikv.log、/var/log/messages、以及找一下 tikv_stderr.log,麻烦提供下文本内容,重启前半个小时

3.集群部署方式是怎样的? TiUP 还是 operator ? 那麻烦提供下具体的版本

2/没有配置tikv_stderr.log.
3、部署方式是自己写的yaml, tikv是daemonset 模式部署
tikv.log.gz (2.4 MB) messages (221.3 KB)

升级 tidb 为 4.0.10 后,观察下集群是否还会存在 tikv 异常重启的情况。

升级 db 升级为4.0.10后,tidb 报错,创建新的tug 升级tidb v4.0.10后,TiDB_server_panic_total
现在降级到4.0.8,tidb 正常了

请问一下是否用的 tidb operator 进行容器管理。

不是,部署方式 是自己编写yaml实现

今天tikv 没有重启
当前组件版本:pd v4.0.10
TIKV v4.0.10
tidb v4.0.8

好的,能麻烦再取一份 tikv os message 日志信息吗

messages.gz (186.6 KB)
今天的message,并无dump 日志

能否帮我确认一下,升级后 tikv 自动重启了多少次。 我看内存的监控是 :20 号 21 号 tikv 重启时间都是在 09:33:00 左右是吗?

是的

@foxchan 你好,请问第一次发生重启,是所有 tikv 节点在同一个时间,都发生了重启么?

是的,同时重启

后面出现那次也是相同的同时重启么?

是的,今天下午发生第三次,也是同时重启,现象一致

集群除了 pd tidb tikv 之外,还有部署哪些其他组件呢?

@foxchan
可否帮忙在本地 gdb 解一下这个 core 文件,我本地环境不太一样有些信息不完整。
操作步骤:

gdb ./bin/tikv-server core-dump-file
info threads

在结果集里面找一下名字叫做 “debugger0” 的 thread,类似,找到最左边的这个编号

* 107  Thread 0x7faac89d8700 (LWP 2455) "debugger0"         futex_wait_cancelable (private=<optimized out>, 
    expected=0, futex_word=0x7fab2b292778) at ../sysdeps/nptl/futex-internal.h:183

然后切换到该线程(按上面的来看就是 107)

thread xxx

再执行这个命令展开 backtrace

bt

然后贴下结果