TiDB数据库集群巡检有哪些注意项?

【 TiDB 使用环境】生产环境
大家维护TiDB的时候,早检和月检都会关注那些地方呢?

一般也就这几个吧。。。

  1. 节点状态监测:检查 TiDB 集群中的各个节点的状态,包括 TiDB Server、TiKV 和 PD 节点。确保节点正常运行,没有异常或错误信息。
  2. 资源利用情况检查:观察 TiDB 集群的资源利用情况,包括 CPU、内存、磁盘和网络等。确保资源充足,并且没有出现明显的性能瓶颈。
  3. 日志和错误日志分析:检查 TiDB 集群的日志和错误日志,查找潜在的问题或异常。特别关注错误日志中的报警信息和异常事件。
  4. 性能调优和优化:评估 TiDB 集群的性能表现,识别潜在的性能瓶颈,并针对性地进行调优和优化,以提高数据库的性能和响应速度。
  5. 数据备份和恢复:确认 TiDB 集群的数据备份策略是否正常执行,并测试恢复过程,确保在发生故障时可以及时恢复数据。
3 个赞

https://docs.pingcap.com/zh/tidb/stable/daily-check

1 个赞

一般月检或者季度巡检会观察长期趋势,比如cpu,内存,磁盘空间网络带宽,增长趋势,未来一段时间是否有容量风险。再就是关键SQL的执行时间频率是否有长期增长趋势,这是量变风险。

1 个赞

看长时间段内的资源使用趋势,错误日志,读写热点等

谢谢总结,应该和其他数据库的维护工作大差不差

1.实例面板中节点状态,版本,启动时间
2.主机面板机器CPU/内存/磁盘
3.topsql面板,了解日常sql信息
4.regin信息面板,滞后regin,缺副本regin等
5.kv请求延时
6.pd请求tso等待时间
7.概述面板中负载,网络,CPU,I/O
8.异常请求数
9.select * from tidb; 如果 GC 发生异常,可能会造成历史数据存留过多,影响访问效率。

1、服务器相关
2、tidb服务相关
3、数据相关(tidb dashboard)

补充几个我们这边的:
1、检查表健康度
2、检查tiup备份情况
3、通过dashboard检查各组件error日志
4、检查ntp、nginx的运行情况
5、检查数据同步等定时任务情况

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。