TiKV频繁重启

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
v5.3.0,tikv和tiflash混合部署

【概述】 场景 + 问题概述
numa来绑定后,其中一个tikv节点频繁重启,日志除了以下报错信息外没有其他日志
[server.rs:1052] [“failed to init io snooper”] [err_code=KV:Unknown] [err=“"IO snooper is not started due to not compiling with BCC"”]

查询系统日志为进程内存溢出被kill,在解除numa绑定后恢复正常,请问这是什么原因
【背景】 做过哪些操作

【现象】 业务和数据库现象

【问题】 当前遇到的问题,参考 AskTUG 的 Troubleshooting 读性能慢-慢语句

【统计信息是否最新】

    【执行计划内容】

    【 SQL 文本、schema 以及 数据分布】

【业务影响】

【TiDB 版本】
v5.3.0
【附件】 相关日志及监控(https://metricstool.pingcap.com/)
logs-tikv_192_168_14_24_20171.zip (9.5 MB)

  • TiUP Cluster Display 信息
  • TiUP CLuster Edit config 信息
  • TiDB-Overview Grafana监控
  • TiDB Grafana 监控
  • TiKV Grafana 监控
  • PD Grafana 监控
  • 对应模块日志(包含问题前后 1 小时日志)

集群拓扑文件发一下,还有numactl --hardware看下输出

1、server_configs里的参数看一下
2、从监控来看是有大结果集查询导致oom,看下CPU很高时候的热力图和慢查询SQL

这个展示可能要清晰一些

昨天查的时候,确实有一个较大结果集的SQL,但是我kill掉之后,还是会重启(在CPU不高的时候也有重启的情况)。之后也观察了连接情况,没有大SQL呢。频繁重启的现象,是在我做numa绑定之后才有的,两天的时间重启了70多次,昨天晚上我把numa绑定去掉后,重启了这个节点,就变正常了。

我猜测你tikv绑的是numa node 1,这个node内存基本快被耗完了,如果不是大结果集SQL影响,那很有可能是block-cache设置过大,所以需要看下你的server_configs参数

%E5%9B%BE%E7%89%87之前绑的确实是1,现在去掉了

设置numa的情况下你给tikv加上这个参数试试:

storage.block-cache.capacity: ‘100G’

好的,我试试,感谢~

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。