tidb 服务重启 导致大部分业务都报错告警

【概述】 场景 + 问题概述
tidb 今天服务重启 影响大部分业务的服务告警

[2022/09/03 10:35:03.925 +08:00] [INFO] [printer.go:34] [“Welcome to TiDB.”] [“Release Version”=v5.4.0] [Edition=Community] [“Git Commit Hash”=55f3b24c1c9f506bd652ef1d162283541e428872] [“Git Branch”=heads/refs/tags/v5.4.0] [“UTC Build Time”=“2022-01-25 08:39:26”] [GoVersion=go1.16.4] [“Race Enabled”=false] [“Check Table Before Drop”=false] [“TiKV Min Version”=v3.0.0-60965b006877ca7234adaced7890d7b029ed1306]
[2022/09/03 10:35:03.925 +08:00] [INFO] [printer.go:48] [“loaded config”]

image

详细日志附件
tidb-2022-09-03T10-59-51.933.zip (20.3 MB)
【TiDB 版本】
V5.4.0

tidb server的内存监控趋势发下看看

dmesg -T|grep tidb 未看到服务内存溢出被kill的记录
但是监控显示有个节点的内存出现异常了
image

[2022/09/03 10:34:17.935 +08:00] [ERROR] [distsql.go:1222] [“table reader fetch next chunk failed”] [conn=47924601] [error=“context canceled”]
[2022/09/03 10:34:17.935 +08:00] [ERROR] [distsql.go:1222] [“table reader fetch next chunk failed”] [conn=47924601] [error=“context canceled”]
[error="write tcp 10.50.33.145:4000->10.54.185.37:37522:
出问题的tidb server是145这台吗,看重启前19秒有这个报错, 10.54.185.37上应该是tikv吧,看看日志有啥。 感觉你这可能需要升级版本,5.4最新的是5.4.2

是这个节点,10.54.185.37 这个不是tikv 是客户点地址吧

先定位问题吧,开启资源损耗统计~
然后建议开启 SQL 最大执行时间和最大内存占用,限制 SQL ,减缓 服务器的压力,避免崩溃

最大内存占用时默认的
最大执行时间是300s