【 TiDB 使用环境`】
生产环境 cpu 64核,256G内存,nvme磁盘,万兆网络,一个机器上面两个TIKV实例
【 TiDB 版本】
v5.4.0
【遇到的问题】
Information schema is out of date: schema failed to update in 1 lease, please make sure TiDB can connect to TiKV
1.19:30左右系统整体QPS都下降,SQL出现tikvrpc,region miss,业务端报上面的错误,那个时间leader drop 很高,如何避免
2.通过查询得知是tikv压力过大导致,但是tikv的cpu 使用率54%,IO使用率40%左右,业务端想保持当前传输速度,tidb如何调整哪些参数,能不报错,不影响业务
leader drop 很高,说明 raftstore 统计到该 store 的 leader 数量在变化,变化可能是 “主键自增导致的连续热点写入” 导致的,也可能是因 tikv 过忙导致心跳出现问题等等。
region miss 相关错误,说明在 tidb 根据 Region Cache 中缓存的旧 region leader 所在 store 位置去请求,发现 Leader 已经不在。但从给出的面板上看,没看到 Region Miss 很高的情况,Region Miss 的 SQL 会自动重试。
cpu 使用率54%,IO使用率40% 确实不算高,但可以看到 leader drop 时间点 raftstore cpu 及 async apply 几乎掉底,但负载点前后 raft store cpu 和 async apply cpu 的压力在没调参的情况下,应该已逼近极限。证明当前 tikv 存在压力