tidb4.0.0 如何定位tidb-server重启原因

前提:

  • tiup管理tidb4.0.0版本的集群
  • 192.168.192.31 192.168.192.32 两个tidb-server在一个HA中

问题:

两台tidb都在一个HA中,该如何定位只有一个tidb-server内存使用过高且重启的原因。

查看这个时间段的tidb-server上的慢查询发现并没有内存占用过大的sql语句

如果断定为 oom,可以看下 tidb map 中描述:
https://github.com/pingcap/tidb-map/blob/master/maps/diagnose-map.md#32-oom-问题

:blush:好的多谢,我这边看下

ok,

tidb版本4.0.0

老师我这有几个问题:

  • 1、我这边只能根据日志看到tidb-server是因为 Out of memory而重启的,但是查看tidb的日志并无法定位oom的sql,tidb有方式可以查询或是记录导致oomsql的地方么?
  • 2、 Out of memory 而导致tidb-server Killed process,tidb哪个地方可以做配置么?
  • 3、涉及到大查询我们该如何保证tidb-server不重启或是不会导致tidb-server所在的服务器被查死?

上面文章中有部分介绍如何定位大查询,缓解 oom 也问题,补充点,可以关注下 tidb 参数 oom-action,oom-use-tmp-storage,tmp-storage-path,tmp-storage-quota
https://docs.pingcap.com/zh/tidb/stable/tidb-configuration-file