TiKV频繁重启

Hacker_ojLJ8Ndr · 2021 年12 月 30 日 02:27

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：
【 TiDB 使用环境】
v5.3.0，tikv和tiflash混合部署

【概述】场景 + 问题概述
numa来绑定后，其中一个tikv节点频繁重启，日志除了以下报错信息外没有其他日志
[server.rs:1052] [“failed to init io snooper”] [err_code=KV:Unknown] [err=“"IO snooper is not started due to not compiling with BCC"”]

查询系统日志为进程内存溢出被kill，在解除numa绑定后恢复正常，请问这是什么原因
【背景】做过哪些操作

【现象】业务和数据库现象

【问题】当前遇到的问题，参考 AskTUG 的 Troubleshooting 读性能慢-慢语句

【统计信息是否最新】

    【执行计划内容】

    【 SQL 文本、schema 以及 数据分布】

【业务影响】

【TiDB 版本】
v5.3.0
【附件】相关日志及监控（https://metricstool.pingcap.com/)
logs-tikv_192_168_14_24_20171.zip (9.5 MB)

TiUP Cluster Display 信息
TiUP CLuster Edit config 信息
TiDB-Overview Grafana监控
TiDB Grafana 监控
TiKV Grafana 监控
PD Grafana 监控
对应模块日志（包含问题前后 1 小时日志）

hey-hoho · 2021 年12 月 30 日 02:37

集群拓扑文件发一下，还有numactl --hardware看下输出

Hacker_ojLJ8Ndr · 2021 年12 月 30 日 02:55

Hacker_ojLJ8Ndr · 2021 年12 月 30 日 02:55

Hacker_ojLJ8Ndr · 2021 年12 月 30 日 02:57

Hacker_ojLJ8Ndr · 2021 年12 月 30 日 02:59

hey-hoho · 2021 年12 月 30 日 03:03

1、server_configs里的参数看一下
2、从监控来看是有大结果集查询导致oom，看下CPU很高时候的热力图和慢查询SQL

Hacker_ojLJ8Ndr · 2021 年12 月 30 日 03:03

这个展示可能要清晰一些

Hacker_ojLJ8Ndr · 2021 年12 月 30 日 03:27

昨天查的时候，确实有一个较大结果集的SQL，但是我kill掉之后，还是会重启（在CPU不高的时候也有重启的情况）。之后也观察了连接情况，没有大SQL呢。频繁重启的现象，是在我做numa绑定之后才有的，两天的时间重启了70多次，昨天晚上我把numa绑定去掉后，重启了这个节点，就变正常了。

hey-hoho · 2021 年12 月 30 日 03:30

我猜测你tikv绑的是numa node 1，这个node内存基本快被耗完了，如果不是大结果集SQL影响，那很有可能是block-cache设置过大，所以需要看下你的server_configs参数

Hacker_ojLJ8Ndr · 2021 年12 月 30 日 03:38

%E5%9B%BE%E7%89%87 之前绑的确实是1，现在去掉了

hey-hoho · 2021 年12 月 30 日 03:44

设置numa的情况下你给tikv加上这个参数试试：

storage.block-cache.capacity: ‘100G’

Hacker_ojLJ8Ndr · 2021 年12 月 30 日 06:04

好的，我试试，感谢~

system · 2022 年10 月 31 日 19:03

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。