监控指标 各属性 都是什么含义

Lock Resolve OPS

expired 128
not_expired 65
query_resolve_lock_lite 4
query_resolve_locks 128
query_txn_status 2
query_txn_status_committed 1
query_txn_status_rolled_back 1
resolve 66
wait_expired 65

KV Backoff OPS

max total
pdRPC 0.07 0.13
regionMiss 36.98 209.40
tikvLockFast 63.76 2.30878 K
tikvRPC 41.93 119.86
txnLock 0.87 28.56
updateLeader 25.29 119.80

从 tidb 的监控页面中 lock resolve ops 以及 kv backoff ops 两个界面中可以发现当前系统存在锁冲突的情况。

lock resolve 页面中,resolve 指标记录了在遇到锁冲突时需要清锁的次数,遇到的锁类型分为写写冲突,读写冲突。在 kv backoff ops 页面中, txnlock 表示遇到写写冲突, txnlockfast 表示读写冲突。同时,对应的锁状态有 wait expired ,expired ,not expired 三种状态,分别在 resolve 面板中显示。关注一些项即可。

1 个赞

老师 regionMiss tikvRPC updateLeader 又是什么意思呢?要不麻烦您都给 标注一下吧?

暂时对于监控细项官网目前没有详细说明,regionmiss、tikvRPC 根据字面意思解释即可,updateleader 可以参考这里 https://gowalker.org/github.com/pingcap/tidb/store/tikv#RegionCache_UpdateLeader ,上面也已经描述了需要关注的项,其他监控信息如果感兴趣可以去 GitHub 上查看。

1 个赞
  • Lock Resolve OPS:事务冲突相关的数量(锁冲突数量超过两位数几百或是更高不正常,事务锁等待)

    属性 含义
    lock resolve ops以及kv backoff ops两个界面中可以发现当前系统存在锁冲突的情况
    not_expired 重试次数已过期的事务数
    query_resolve_lock_lite
    query_resolve_locks
    query_txn_status
    query_txn_status_committed
    query_txn_status_rolled_back
    resolve 重试成功的事务数
    wait_expired 等待重试中的事务数
  • KV Backoff OPS:TiKV 因事务冲突,导致事务重试的次数; 会受到TiKV的 server report failures 模块数据影响

    属性 含义
    pdRPC
    regionMiss
    tikvLockFast 表示读写冲突
    tikvRPC
    txnLock 表示遇到写写冲突
    updateLeader

老师我不知道理解的对不对

差不多,另外可以根据相关日志,查到具体的冲突的表以及 SQL,从业务层进行解决。

1 个赞

好的谢谢老师,知道这些属性的含义对于我来说非常重要,通过监控指标定义问题又深入了一步

目前也在改善中,比如 3.0 的监控中,有些也已经在补充,有些带!的,可以点下有一些解释,可以关注一下

原来如此,这里还有彩蛋啊哈哈:grin:

:grinning:

resolve lock参考 https://zhuanlan.zhihu.com/p/77846678 中 处理残留的锁部分

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。