集群某个kv和tidb内存异常 4.0.5版本

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:4.0.5
  • 【问题描述】:
    三kv,某一个kv内存持续上涨,其他kv内存保持不变。上涨到一定时候就离线了,然后内存就在100%。
    2tidb,一个持续最大内存一直不变,另一个短时间内存疯涨,达到最大值后自动重启。
    image
    最近7天的监控:
    image
  1. 检查dashboard 界面是否有大查询导致内存占用过多
  2. 下次 tidb 内存上涨时,可以抓一下火焰图
    curl -G http://{TiDBIP}:10080/debug/zip?seconds=30" > profile.zip
    ip地址为tidb服务器的ip,端口为tidb_status_port的端口

快速上涨的时候,dashboard看了下,并没有大查询,最大的一个占了200M,其他的都是几K的

1.dashboard 按照内存排序,麻烦截图,多谢
2.如果确认没有大的sql,可以复现问题的话,麻烦在内存上涨时抓一下火焰图,我们查看,多谢。

早上起来看的,最近一天的。


昨天tidb快速上涨又重启的截图
image
另外一个还是稳定在满内存不变

  1. 有可能的话,尽量在上涨时间段抓一个火焰图
  2. 如果无法抓到,麻烦把这个tidb-server 发生时间段的 tidb.log 和 slow log 都上传下,我们再找找

image
内存高的那台QPS比其它两台都高

tidb_stderr.log (624 字节)tidb_slow_query.zip (2.9 MB) tidb.zip (3.7 MB)

从日志看只有9.10号重启了,请问确认是这个节点吗? 10.97 感觉不是这个节点?

最近7天的集群内存情况。升级后,内存就像过山车似的。
image

  1. 先选择一个 tidb-server 集中查看,比如172.25.10.98,在 9.16 日期附近都是用了比较多的内存。 选择一个小时的监控,上传over-view,tidb 监控信息
  1. 上传 172.25.10.98 和上面监控时间段相同的 tidb.log 和 slow 日志,多谢。

之前上传的日志就就包括你说的这个时间段的异常数据

麻烦上传下监控信息,多谢。

方便上传完整的监控吗? 多谢。

tidb的io内存现在又抽风了。你说的监控是要哪些?

如果是 tidb-server 就是上面回答的这些

tidb-produce-TiDB_2020-09-24T06_42_26.303Z.json (1.7 MB) tidb-produce-Overview_2020-09-24T06_42_05.471Z.json (1.2 MB) tidb-produce-TiKV-Details_2020-09-24T06_38_37.864Z.json (2.4 MB)