tikv和tidb最近一直出现重启现象

laofeizhu · 2022 年6 月 30 日 03:51

【 TiDB 使用环境`】生产环境
【 TiDB 版本】v5.2.1
【遇到的问题】tikv和tidb最近一直出现重启现象
【复现路径】无法复现
【问题现象及影响】
影响：在重启后进行leader选举的时候，非常卡顿，sql查询延迟非常高
问题现象：在tikv日志中出现welcome tikv（表明重启过了，而且前后出现十几秒的日志空档）

监控文件：b2b-Overview_2022-06-30T07_27_39.411Z.json (2.2 MB) b2b-TiKV-Details_2022-06-30T06_11_35.859Z.json (25.5 MB) b2b-TiDB_2022-06-30T07_26_34.011Z.json (5.1 MB) b2b-Overview_2022-06-30T07_27_39.411Z.json
b2b-TiKV-Details_2022-06-30T06_11_35.859Z.json
b2b-TiDB_2022-06-30T07_26_34.011Z.json

BraveChen · 2022 年6 月 30 日 03:53

看下，tikv和tidb的日志

laofeizhu · 2022 年6 月 30 日 03:58

稍等，我等会把各监控的数据导出来。

BraveChen · 2022 年6 月 30 日 05:58

直接你集群各组件的部署目录下有个log文件夹，里面有日志，看日志最直观

laofeizhu · 2022 年6 月 30 日 06:17

logs-tikv_192_168_40_56_20160 (1).zip (4.1 KB) logs-tikv_192_168_40_56_20160 (1).zip 这个是附近的异常日志

laofeizhu · 2022 年6 月 30 日 07:23

链接: https://pan.baidu.com/s/1K4wuxQSka7oh3qi5Bxaq1w 提取码: lmnl
–来自百度网盘超级会员v6的分享完整的放百度云盘了

TiDBer_wTKU9jv6 · 2022 年6 月 30 日 07:44

/var/log/messages. 看看重启的原因呢，会不会是oom了呢

BraveChen · 2022 年6 月 30 日 08:16

有可能，你看下那个时间点使用内存的监控

BraveChen · 2022 年6 月 30 日 08:37

从监控上看很典型的oom,56那台机器发生oom

BraveChen · 2022 年6 月 30 日 08:41

你去找下原因

laofeizhu · 2022 年6 月 30 日 08:53

好的，非常感谢

laofeizhu · 2022 年7 月 7 日 02:13

最后已经解决了，具体问题是由于tidb gc失败后内存泄露，导致内存只增不减，而由于tidb和tikv部署在同一个节点，导致系统杀应用的时候把tikv给杀了。tikv重启后tidb又因为内存不足给杀了。最后通过调查gc异常的情况（主要报错集中在 analyze时间过长），调整了参数tidb_gc_life_time参数。剩下的为：字段太短，导致收集失败（https://asktug.com/t/topic/543008）。

tidb狂热爱好者 · 2022 年7 月 7 日 03:08

你这个是混合部署。pd tikv tidb 必须分开部署。
如果混合部署必须限制tikv的内存使用量 tidb的内存使用量。
不然一个1g sql查询就会oom
你是没法控制开发写烂sql的所以tidb的机器最好独立开。

laofeizhu · 2022 年7 月 7 日 08:27

嗯嗯，主要是现在资源不够，还得等一段时间

BraveChen · 2022 年7 月 8 日 01:32

嗯嗯，有道理

system · 2022 年10 月 31 日 19:26

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。