辛苦判断下之前做业务测试时是否有关注 tidb 服务器配置和拓扑可以承接当前业务呢
提供下 select tidb_version();
从监控截图上看 tidb-server 是 oom了。dmesg -T |grep tidb-server 看下。
提供下 13:30 - 13:50 的 tidb log 。
PS:请正确选择帖子标签和分类
奇怪了为啥总是oom啊这是今天所有的,没有相关时间段的呢
上面的信息提供下
或者根据 tidb map 自行判断下
https://github.com/pingcap/tidb-map/blob/master/maps/diagnose-map.md#32-oom-问题
辛苦使用以下方式截图下 overview 看下。这边看是单机多实例部署,tidb 服务器除了 pd 还有一些监控节点在。这边需要确认下在集群空闲时间,服务器内存情况。
打开 grafana 监控,先按 d 再按 shift+e 可以打开所有监控项。
(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl
(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。
(3)、使用这个 full-page-screen-capture 插件进行截屏保存
看了下,你这不只是 tidb 存在 oom 的问题,从监控上看 tikv 也有 qps 掉地的情况,但是也有可能是因为监控没有收集上来导致的,可以通过 pd ctl 反馈下 store 的情况,辛苦。
简单说下你的服务器情况,
- 目前看 topoloy 是单机4个 tikv 部署,不知道是否为多次盘部署,可以反馈下。
- 当前 region 分布也不是很均匀
- 由于多实例部署,服务器的 内存长期处于高位,看 tidb 监控中内存使用高位在 110G 左右,建议拆分。请看下服务器是否有其他应用再跑,占用内存
提供下 tidb_stderr.log 实锤下是否为慢日志导致的,tidb log 中 search expensive_query 最大 64G 的 sql 在运行。
得得得
咋了?
请问我这有解决方案吗?