【 TiDB 使用环境】生产环境
【 TiDB 版本】5.4.2
【遇到的问题】新版本的io变高,出现hot write,hot read
【复现路径】
【问题现象及影响】
18号凌晨tidb从4.0.8升级到5.4.2后,最近这几天io的使用率变高了,平均达到70%,比之前的高了近一倍,也出现了hot write,hot read ,目前只切了30%的流量进来,怕全部流量切进来扛不住
去看一下可视化流量图 那里能看到具体哪个表是热点写入
看可视化视图,索引写入热点,索引怎么打散呢
看表已经加了shard_row_id_bits=4的属性了
https://metricstool.pingcap.com/#backup-with-dev-tools
按这个把tidb tikv-detail的监控导出下,升级前后的,一定要expand所有面板,并等数据加载完在export,要不没数据
麻烦大佬帮忙分析一下
看着升级后的磁盘读取量比升级前还低呢。
1、 把io高的 tikv找一个看看 升级前后的disk performance
2、 看看慢SQL有执行计划变化没
3、 gc.enable-compaction-filter 参数是不是true,如果是改成false看看
慢sql的执行计划没有变化,慢sql的数量跟之前的一样,没有突增
gc.enable-compaction-filter 是true,改成false之后,cpu,memory,io,MBps 的值都变高了
生产环境不能动,只能拿仿真环境修改测试,仿真的版本也是5.4.2
IO利用率没变,你们用的什么类型磁盘?看下GC相关的监控,等跑一段时间后看看在看看利用率
从之前的tikv监控上看 打到tikv的请求没太大变化,升级前一直后GC活动 ,升级后的这段时间反而比升级前的量还低,但是磁盘一直保持比较平稳的利用率,确认磁盘上没有其他程序在跑吗。
tidb的机器都是单独使用的,没有其他的程序在跑
io读写虽然降低了,但是qps没降,io的使用率比较高也比较平稳,升级前的会有波峰波谷
贴下磁盘的监控看看 对比前后的IOPS 吞吐量 延迟
IOPS比原来增长很多,吞吐量也比原来的多一些,把tidb server的监控导出下,还有慢SQL看看