【TiDB 4.0 PCTA 学习笔记】- 3.7.1 Metrics that DBAs should notice @2班+马志林

课程名称:【TiDB 4.0 PCTA 学习笔记】- 3.7.1 Metrics that DBAs should notice (运维中的关键监控)

学习时长:30m

课程收获:

了解性能相关的监控指标

课程内容:

一、系统相关指标
CPU 一般< 80% ,CPU load 小于cpu核数,
MEM:tikv < 60% ,tikv < 80%
Network Traffic : 不要打满网卡
IO util <80%

二、TiDB
延迟 : 99% 要 <100ms
慢查询:不应出现
QPS:ideal CPS 判断延迟是出现在客户端还是服务器端
get token druation :应该<1ms ,通过调整 token-limit 控制,参数要大于 实际连接的总和
parse duration : <10ms
compile duration : <30ms
lock resolve ops : <500 , 锁冲突过,多最好用悲观锁
kv backoff ops : <500 ,体现region分裂情况,太高说明 tikv有故障
pd tso : 99% 要 <5ms

三、TIKV


%E5%9B%BE%E7%89%87
region数量 : 单个tikv推荐在5w以下,不然region的心跳开销 和 Raft的状态记忆开销都会很大,利用region merge进行合并 和 hibernate region降低没有流量的region的心跳开销
grpc: 延迟低越好,99% <100ms
server is busy :不应出现,需要关注产生原因

四、PD
etcd :99% WAL fsync duration : pd刷盘延迟 < 5ms
heartbeat : 99% region heartbeat latency : 心跳处理时间 <5ms ,时间大说明PD负载高

五、dashboard


慢查询日志