我一切过流量来tidb 就被打挂了

辛苦判断下之前做业务测试时是否有关注 tidb 服务器配置和拓扑可以承接当前业务呢

提供下 select tidb_version();

从监控截图上看 tidb-server 是 oom了。dmesg -T |grep tidb-server 看下。
提供下 13:30 - 13:50 的 tidb log 。

PS:请正确选择帖子标签和分类

奇怪了为啥总是oom啊这是今天所有的,没有相关时间段的呢

上面的信息提供下

或者根据 tidb map 自行判断下
https://github.com/pingcap/tidb-map/blob/master/maps/diagnose-map.md#32-oom-问题

tidb.log.tar.gz (1.5 MB)

我的版本v3.1.0

服务器配置:


磁盘均采用ssd 2t

辛苦使用以下方式截图下 overview 看下。这边看是单机多实例部署,tidb 服务器除了 pd 还有一些监控节点在。这边需要确认下在集群空闲时间,服务器内存情况。


打开 grafana 监控,先按 d 再按 shift+e 可以打开所有监控项。

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

一会显示2个tikv 关闭


一会显示这样,但是没有tikv挂掉


又这样了

看了下,你这不只是 tidb 存在 oom 的问题,从监控上看 tikv 也有 qps 掉地的情况,但是也有可能是因为监控没有收集上来导致的,可以通过 pd ctl 反馈下 store 的情况,辛苦。

简单说下你的服务器情况,

  1. 目前看 topoloy 是单机4个 tikv 部署,不知道是否为多次盘部署,可以反馈下。
  2. 当前 region 分布也不是很均匀
  3. 由于多实例部署,服务器的 内存长期处于高位,看 tidb 监控中内存使用高位在 110G 左右,建议拆分。请看下服务器是否有其他应用再跑,占用内存

1、是每个tikv一个盘
3、内存只有tidb 耗尽,可用内存都在100+啊

store.log (16.2 KB)

image

提供下 tidb_stderr.log 实锤下是否为慢日志导致的,tidb log 中 search expensive_query 最大 64G 的 sql 在运行。

tidb_stderr.log (14.4 KB)

得得得

咋了?

请问我这有解决方案吗?