课程名称:【TiDB 4.0 PCTA 学习笔记】- 3.7.1 Metrics that DBAs should notice (运维中的关键监控)
学习时长:30m
课程收获:
了解性能相关的监控指标
课程内容:
一、系统相关指标
CPU 一般< 80% ,CPU load 小于cpu核数,
MEM:tikv < 60% ,tikv < 80%
Network Traffic : 不要打满网卡
IO util <80%
二、TiDB
延迟 : 99% 要 <100ms
慢查询:不应出现
QPS:ideal CPS 判断延迟是出现在客户端还是服务器端
get token druation :应该<1ms ,通过调整 token-limit 控制,参数要大于 实际连接的总和
parse duration : <10ms
compile duration : <30ms
lock resolve ops : <500 , 锁冲突过,多最好用悲观锁
kv backoff ops : <500 ,体现region分裂情况,太高说明 tikv有故障
pd tso : 99% 要 <5ms
三、TIKV
region数量 : 单个tikv推荐在5w以下,不然region的心跳开销 和 Raft的状态记忆开销都会很大,利用region merge进行合并 和 hibernate region降低没有流量的region的心跳开销
grpc: 延迟低越好,99% <100ms
server is busy :不应出现,需要关注产生原因
四、PD
etcd :99% WAL fsync duration : pd刷盘延迟 < 5ms
heartbeat : 99% region heartbeat latency : 心跳处理时间 <5ms ,时间大说明PD负载高
五、dashboard
慢查询日志