tidb 4.0.8 升级到5.4.2 出现io使用率高

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.4.2
【遇到的问题】新版本的io变高,出现hot write,hot read
【复现路径】
【问题现象及影响】
18号凌晨tidb从4.0.8升级到5.4.2后,最近这几天io的使用率变高了,平均达到70%,比之前的高了近一倍,也出现了hot write,hot read ,目前只切了30%的流量进来,怕全部流量切进来扛不住




去看一下可视化流量图 那里能看到具体哪个表是热点写入

看可视化视图,索引写入热点,索引怎么打散呢
看表已经加了shard_row_id_bits=4的属性了

https://metricstool.pingcap.com/#backup-with-dev-tools
按这个把tidb tikv-detail的监控导出下,升级前后的,一定要expand所有面板,并等数据加载完在export,要不没数据

麻烦大佬帮忙分析一下


看着升级后的磁盘读取量比升级前还低呢。
1、 把io高的 tikv找一个看看 升级前后的disk performance
2、 看看慢SQL有执行计划变化没
3、 gc.enable-compaction-filter 参数是不是true,如果是改成false看看

慢sql的执行计划没有变化,慢sql的数量跟之前的一样,没有突增

gc.enable-compaction-filter 是true,改成false之后,cpu,memory,io,MBps 的值都变高了
生产环境不能动,只能拿仿真环境修改测试,仿真的版本也是5.4.2

IO利用率没变,你们用的什么类型磁盘?看下GC相关的监控,等跑一段时间后看看在看看利用率

磁盘是SSD,io 升高了6~10%左右


从之前的tikv监控上看 打到tikv的请求没太大变化,升级前一直后GC活动 ,升级后的这段时间反而比升级前的量还低,但是磁盘一直保持比较平稳的利用率,确认磁盘上没有其他程序在跑吗。

tidb的机器都是单独使用的,没有其他的程序在跑
io读写虽然降低了,但是qps没降,io的使用率比较高也比较平稳,升级前的会有波峰波谷

贴下磁盘的监控看看 对比前后的IOPS 吞吐量 延迟

18号凌晨升级的,其中一个kv节点的磁盘io信息

IOPS比原来增长很多,吞吐量也比原来的多一些,把tidb server的监控导出下,还有慢SQL看看

看OPs没有特别大的变化,


慢查询我们有实时监控,一天中超过1s的不超过50条





rocksdb的 block cache read 量 比以前有很大增长,肯定是有大量请求增长的,index scan 升级后有降低,感觉还是跟但是看升级前后执行计划有了变化