我一切过流量来tidb 就被打挂了

xingzhenxiang · 2020 年8 月 20 日 06:01

来了老弟 · 2020 年8 月 20 日 06:28

辛苦判断下之前做业务测试时是否有关注 tidb 服务器配置和拓扑可以承接当前业务呢

提供下 select tidb_version();

从监控截图上看 tidb-server 是 oom了。dmesg -T |grep tidb-server 看下。
提供下 13：30 - 13：50 的 tidb log 。

PS：请正确选择帖子标签和分类

xingzhenxiang · 2020 年8 月 20 日 06:32

xingzhenxiang · 2020 年8 月 20 日 06:37

奇怪了为啥总是oom啊这是今天所有的，没有相关时间段的呢

来了老弟 · 2020 年8 月 20 日 06:43

上面的信息提供下

或者根据 tidb map 自行判断下
https://github.com/pingcap/tidb-map/blob/master/maps/diagnose-map.md#32-oom-问题

xingzhenxiang · 2020 年8 月 20 日 06:45

tidb.log.tar.gz (1.5 MB)

我的版本v3.1.0

xingzhenxiang · 2020 年8 月 20 日 06:51

服务器配置：

磁盘均采用ssd 2t

来了老弟 · 2020 年8 月 20 日 07:17

辛苦使用以下方式截图下 overview 看下。这边看是单机多实例部署，tidb 服务器除了 pd 还有一些监控节点在。这边需要确认下在集群空闲时间，服务器内存情况。


打开 grafana 监控，先按 d 再按 shift+e 可以打开所有监控项。

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上，按 ?可显示所有快捷键，先按 d 再按 E 可将所有 Rows 的 Panels 打开，需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

xingzhenxiang · 2020 年8 月 20 日 07:28

xingzhenxiang · 2020 年8 月 20 日 07:34

一会显示2个tikv 关闭

xingzhenxiang · 2020 年8 月 20 日 07:35

一会显示这样，但是没有tikv挂掉

xingzhenxiang · 2020 年8 月 20 日 07:36

又这样了

来了老弟 · 2020 年8 月 20 日 07:41

看了下，你这不只是 tidb 存在 oom 的问题，从监控上看 tikv 也有 qps 掉地的情况，但是也有可能是因为监控没有收集上来导致的，可以通过 pd ctl 反馈下 store 的情况，辛苦。

简单说下你的服务器情况，

目前看 topoloy 是单机4个 tikv 部署，不知道是否为多次盘部署，可以反馈下。
当前 region 分布也不是很均匀
由于多实例部署，服务器的内存长期处于高位，看 tidb 监控中内存使用高位在 110G 左右，建议拆分。请看下服务器是否有其他应用再跑，占用内存

xingzhenxiang · 2020 年8 月 20 日 07:46

1、是每个tikv一个盘
3、内存只有tidb 耗尽，可用内存都在100+啊

store.log (16.2 KB)

xingzhenxiang · 2020 年8 月 20 日 08:01

来了老弟 · 2020 年8 月 20 日 08:39

提供下 tidb_stderr.log 实锤下是否为慢日志导致的，tidb log 中 search expensive_query 最大 64G 的 sql 在运行。

xingzhenxiang · 2020 年8 月 20 日 08:45

tidb_stderr.log (14.4 KB)

mige · 2020 年8 月 20 日 08:58

得得得

xingzhenxiang · 2020 年8 月 20 日 09:05

咋了？

xingzhenxiang · 2020 年8 月 20 日 09:24

请问我这有解决方案吗？