TIFLASH负载不均衡

【 TiDB 使用环境】
公司报表业务

【概述】 报表业务,四台tiflash有1台Tiflash CPU异常

【背景】 9.14号凌晨把tiflash表从2副本,改成3副本

【现象】 CPU一直处于高负载

【问题】 TIFLASH高负载原因

【业务影响】 暂无

【TiDB 版本】 5.0.3

image

tidb-rpt-Overview_2021-09-14T06_26_50.480Z.json (1.2 MB) tidb-rpt-Overview_2021-09-14T06_26_50.480Z.json
tidb-rpt-TiFlash-Summary_2021-09-14T06_13_55.726Z.json (4.7 MB) tidb-rpt-TiFlash-Summary_2021-09-14T06_13_55.726Z.json

rpt_tiflash_log.tar.gz
链接:https://pan.baidu.com/s/16iuBJqqdZqDKyFWkQ5Svtw 密码:uuut

profile.svg
链接:https://pan.baidu.com/s/1FbbswUAAA704_awasFGnvg 密码:uhoj

1赞




全是耗资源全是这一个表的查询,目前看region分布是均衡的,有办法可以改善这个问题嘛

SQL语句分析
链接:https://pan.baidu.com/s/1LLXRlKN1ZZUYzkgJAYWAjQ 密码:asif

1.CPU 冲高的这台 tiflash 和其他三个 tiflash 节点的 OS 配置是完全相同的吗?可以检查下 THP 、swap 等是否都关闭了;
2.如果方便的话可以考虑缩容下该 tiflash 节点,看下会不会导致其他的 tiflash 节点 CPU 也冲高。

机器都是一样,参数配置都一样
集群相关配置 (15.8 KB) 集群相关配置

方便先将这个 tiflash 先缩容掉吗?想确认下是不是读热点导致的,如果是的话缩容之后其他的 tiflash 节点应该也会出现 CPU 冲高现象。

目前现象已经恢复,缩容意义不大

请问是自动恢复的还是做了什么调整?比如升级之类的操作。

自动恢复的,现在就2台同时负载高,但是tfilash都是3副本,这种现象正常嘛

从上面的监控中看好像也不是固定的两个 tiflash 节点 CPU 冲高,你这边观察到的是随机节点 CPU 会发生冲高吗

恩,感觉是随机

需要查看一下高峰阶段 tiflash log中某些 sql 只在这些机器上执行;另外还要高峰阶段grafana 面板中 tiflash-summary。把这些信息传给我们吧

  1. 请将所有tiflash 在高峰时期的 log 上传一下;
  2. 上面的 profile有问题,请重新上传;
  3. 对应时间的所有 tidb log 也上传一下;
  4. 确认并上传 CPU 高峰时间的 sql,以及 sql 的 explain analyze结果。

config placement-rules show (130.4 KB) meta.yaml (6.0 KB) profile TiDB 集群诊断报告.zip (938.1 KB)

profile(1)

sql (91.0 KB)