【TiDBer 唠嗑茶话会 180】TiDB 可观测性调研:关于 Top SQL 内存占用和指标需求,来分享你的监控经验吧!

:clap: 本期唠嗑茶话会,就让我们来聊聊 TiDB 可观测性方面的使用体验! 可观测性是我们排查问题、理解系统、优化性能的“火眼金睛”。TiDB 提供了丰富的监控指标、日志、追踪手段。我们也希望听听大家的使用体验,让 TiDB 在可观测性上做得更好!不管你是监控达人,还是日志“考古学家”,都欢迎来讨论,一起把 TiDB 的“可看、可懂、可追”玩得更明白!

TiDB Dashboard 介绍:https://docs.pingcap.com/zh/tidb/stable/dashboard-intro/

Top SQL 介绍:https://docs.pingcap.com/zh/tidb/stable/top-sql/

本期话题

  1. 在使用 dashboard 中的 Topsql 功能时,你觉得操作界面是否简洁直观?有没有遇到过界面交互不流畅、功能入口难找、配置难的情况?

  2. 你是否会经常使用 Topsql 功能来分析数据库性能?使用过程中,该功能提供的 SQL 性能数据是否准确、全面,能否满足你排查问题的需求?

  3. 除了 Topsql 功能,你还会使用哪些可观测性相关功能来监控和管理系统?你期望这些功能之间的联动性达到什么效果?

  4. 对于 Topsql 功能呈现的性能数据,你希望能以怎样的方式(如图表类型、数据聚合维度等)进行展示,以便更高效地获取信息?

  5. 在日常工作中,你是否遇到过因可观测性功能不足或不完善,导致无法及时发现或解决系统问题的情况?如果有,具体是怎样的场景?

  6. 你认为当前的可观测性功能在告警方面表现如何?告警规则是否灵活易配置,告警信息是否清晰、及时,有没有出现过误报或漏报的情况?

  7. 从整体使用体验来看,你觉得可观测性相关功能在帮助你提升工作效率、保障系统稳定运行方面,效果如何?还有哪些方面需要改进?

参与奖励

留言参与讨论,获得 50 积分 & 经验值!

活动时间

2025.9.8 - 2025.9.15

:fire: 近期,平凯数据库(TiDB 企业版)敏捷模式的试用活动正在如火如荼进行中,活动过程中您可以感受用白屏化工具 TEM 部署和监控 TiDB 数据库的便利性,想要体验的小伙伴不要错过哦~

沙发坐起。

  • TopSQL 的数据保存期限大家一般会设置多久?
    一般设置一周左右差不多了吧。
  • 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    执行时间,死锁等。
  • 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    这个暂时还没关注到。
1 个赞
  • TopSQL 的数据保存期限大家一般会设置多久?
    一般设置一个月左右差不多了吧。
  • 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    SQL 锁问题
  • 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    向量数据优化,oracle 有这方面
1 个赞
  1. TopSQL 的数据保存期限大家一般会设置多久?
    没单独设置,用的默认值。
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    事务锁、内存
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    事务锁,可以看到锁进程语句和被锁进程语句
  1. TopSQL 的数据保存期限大家一般会设置多久?
    两周左右
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    语句执行次数和响应时间
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    暂时没有
  1. TopSQL 的数据保存期限大家一般会设置多久?
    两周左右
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    语句执行次数和响应时间
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    暂时没有
1 个赞
  1. TopSQL 的数据保存期限大家一般会设置多久?
    一个月左右
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    语句执行次数和响应时间
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    暂时没有
1 个赞
  1. TopSQL 的数据保存期限大家一般会设置多久?
    一个月
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    语句执行次数和响应时间
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    暂时没有
  • TopSQL 的数据保存期限大家一般会设置多久?
    一个月
  • 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    语句执行次数,执行时间,总占用时间,执行计划,占用内存
  • 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    这个暂时还没关注到。
  • TopSQL 的数据保存期限大家一般会设置多久?
    一般设置一个月左右差不多了吧。
  • 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    SQL 锁问题
  • 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    向量数据优化,oracle 有这方面
  • TopSQL 的数据保存期限大家一般会设置多久?
    一周
  • 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    占用资源比较高,执行次数频繁的
  • 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    暂无

警惕外部组件和内存优化表

  • 如果使用了 R/Python,需要监控这些外部进程的内存使用。
  • 内存优化表 (In-Memory OLTP) 会常驻内存,确保为其分配的内存 (max_server_memory 之外或之内) 是合理且受控的。
  • TopSQL 的数据保存期限大家一般会设置多久?
    默认值
  • 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    语句执行次数和响应时间
  • 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    没有
  1. TopSQL 的数据保存期限大家一般会设置多久?
    这个用的默认的
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    希望能实时检测到锁信息,一段时间内,SQL 语句执行的次数,
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    可参考oracle 的
  1. TopSQL 的数据保存期限大家一般会设置多久?
    目前在测试环境,会使用默认值
  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    资源占用高、执行次数高
  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
    暂无

TopSQL 的数据保存期限大家一般会设置多久?
7天
除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
cpu,io,执行时间,死锁
有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!)
还没关注

  1. TopSQL 的数据保存期限大家一般会设置多久?
    30天

  2. 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    除 CPU 使用率外,​​I/O 相关指标​​(如逻辑/物理读写次数、读写数据量)非常有价值,能帮助区分计算密集型与 I/O 密集型操作,优化方向更明确。

  3. 有没有一些在其他数据库看到的比较有价值/有帮助的指标,在 TiDB 里没有的(也可以分享下,我们多多进行优化改进!
    执行计划稳定性监控​​(如跟踪执行计划指纹或版本变化频率)是一个有价值的指标,可用于快速发现因执行计划突变导致的性能波动。

  1. TopSQL 的数据保存期限大家一般会设置多久?
    默认的
    怎么设置保留期限呢?有对应参数吗?
  • TopSQL 的数据保存期限大家一般会设置多久?
    设置半个月(应用版本一周一迭代)。
  • 除了现有的 cpu 指标,大家觉得哪些指标比较有必要体现在 Top SQL 里,在定位问题/监控时,大家需要看哪些常用指标?
    ​​I/O 相关指标​​(如逻辑/物理读写次数)、SQL Coprocessor 累计执行耗时