监控指标 各属性 都是什么含义

Lock Resolve OPS

expired 128
not_expired 65
query_resolve_lock_lite 4
query_resolve_locks 128
query_txn_status 2
query_txn_status_committed 1
query_txn_status_rolled_back 1
resolve 66
wait_expired 65

KV Backoff OPS

max total
pdRPC 0.07 0.13
regionMiss 36.98 209.40
tikvLockFast 63.76 2.30878 K
tikvRPC 41.93 119.86
txnLock 0.87 28.56
updateLeader 25.29 119.80

从 tidb 的监控页面中 lock resolve ops 以及 kv backoff ops 两个界面中可以发现当前系统存在锁冲突的情况。

lock resolve 页面中,resolve 指标记录了在遇到锁冲突时需要清锁的次数,遇到的锁类型分为写写冲突,读写冲突。在 kv backoff ops 页面中, txnlock 表示遇到写写冲突, txnlockfast 表示读写冲突。同时,对应的锁状态有 wait expired ,expired ,not expired 三种状态,分别在 resolve 面板中显示。关注一些项即可。

1赞

老师 regionMiss tikvRPC updateLeader 又是什么意思呢?要不麻烦您都给 标注一下吧?

暂时对于监控细项官网目前没有详细说明,regionmiss、tikvRPC 根据字面意思解释即可,updateleader 可以参考这里 https://gowalker.org/github.com/pingcap/tidb/store/tikv#RegionCache_UpdateLeader ,上面也已经描述了需要关注的项,其他监控信息如果感兴趣可以去 GitHub 上查看。

1赞
  • Lock Resolve OPS:事务冲突相关的数量(锁冲突数量超过两位数几百或是更高不正常,事务锁等待)

    属性 含义
    lock resolve ops以及kv backoff ops两个界面中可以发现当前系统存在锁冲突的情况
    not_expired 重试次数已过期的事务数
    query_resolve_lock_lite
    query_resolve_locks
    query_txn_status
    query_txn_status_committed
    query_txn_status_rolled_back
    resolve 重试成功的事务数
    wait_expired 等待重试中的事务数
  • KV Backoff OPS:TiKV 因事务冲突,导致事务重试的次数; 会受到TiKV的 server report failures 模块数据影响

    属性 含义
    pdRPC
    regionMiss
    tikvLockFast 表示读写冲突
    tikvRPC
    txnLock 表示遇到写写冲突
    updateLeader

老师我不知道理解的对不对

差不多,另外可以根据相关日志,查到具体的冲突的表以及 SQL,从业务层进行解决。

1赞

好的谢谢老师,知道这些属性的含义对于我来说非常重要,通过监控指标定义问题又深入了一步

目前也在改善中,比如 3.0 的监控中,有些也已经在补充,有些带!的,可以点下有一些解释,可以关注一下

原来如此,这里还有彩蛋啊哈哈:grin:

:grinning: