【TiDB 4.0 PCTA 学习笔记】- 3.7.1 Metrics that DBAs should notice @2班+马志林

ryangato · 2020 年12 月 28 日 14:27

课程名称：【TiDB 4.0 PCTA 学习笔记】- 3.7.1 Metrics that DBAs should notice （运维中的关键监控）

学习时长：30m

课程收获：

了解性能相关的监控指标

课程内容：

一、系统相关指标
CPU 一般< 80% ,CPU load 小于cpu核数,
MEM：tikv < 60% ,tikv < 80%
Network Traffic : 不要打满网卡
IO util <80%

二、TiDB
延迟： 99% 要 <100ms
慢查询：不应出现
QPS：ideal CPS 判断延迟是出现在客户端还是服务器端
get token druation ：应该<1ms ，通过调整 token-limit 控制，参数要大于实际连接的总和
parse duration : <10ms
compile duration : <30ms
lock resolve ops : <500 , 锁冲突过，多最好用悲观锁
kv backoff ops : <500 ，体现region分裂情况，太高说明 tikv有故障
pd tso : 99% 要 <5ms

三、TIKV

region数量：单个tikv推荐在5w以下，不然region的心跳开销和 Raft的状态记忆开销都会很大，利用region merge进行合并和 hibernate region降低没有流量的region的心跳开销
grpc：延迟低越好，99% <100ms
server is busy ：不应出现，需要关注产生原因

四、PD
etcd ：99% WAL fsync duration ： pd刷盘延迟 < 5ms
heartbeat : 99% region heartbeat latency : 心跳处理时间 <5ms ，时间大说明PD负载高

五、dashboard

慢查询日志