增加按 db 维度记录 duration 监控项

需求反馈

【需求涉及的问题场景】

  • 在大集群场景中,每个业务一个独立 db,目前已经使用 record-db-qps 记录每个 db 的 qps,但是关于单个 db 的其他 metric 如 duration 无法获知,业务方希望了解自己的业务的延迟情况。

【期望的需求行为】

【需求可替代方案】

  • 每个业务侧自己加监控记录全链路延迟

【背景信息】

  • 为了将更多的小规模业务迁移到 tidb 集群,为了降低机器和运维成本需要采用大集群模式,这样就存在一个集群中混合了多个 db 的类多租户模式,每个业务希望了解自己业务的运行情况,dba 也希望快速了解哪个业务延迟存在性能问题。
1 个赞

tidb 在开启了 record-db-qps 后只能看到自己服务增删改查的 QPS,P99 信息反映的是整个集群的,除了知道在抖动无法判断具体自己有没有受到集群抖动的影响,并且不能帮助后台人员判断问题,希望在当前正对 db 的监控指标上添加上 P99,slow query,rows read等一类的数据库通用监控指标,方便展示给业务同学,也方便运维同学进行问题排查.
更丰富的指标信息也有助于 placement rule 规则的创建,对整个集群的资源做出更合理的调度.

7.0 以上的版本可以使用 status.record-db-label , duration 等也会按照 by database 记录