tidb的集群化安装如何监控可用性

【 TiDB 使用环境】测试环境
【 TiDB 版本】7.1.2

没看懂,tidb安装本身就有dashboard和prometheus+grafana组合监控了啊

1、服务器级别监控告警可以自己实现
2、tidb服务监控告警在grafana里设置告警

可以考虑以下几个方面:

  1. 监控节点健康状态:对于 TiDB 集群的每个节点,可以通过 TiDB Dashboard 等可视化监控平台或者系统自带的监控工具来监控其健康状态,包括 CPU、内存、磁盘、网络等指标。如果节点出现异常或者宕机,就需要及时报警并采取措施,以保证集群的稳定运行。
  2. 监控服务可用性:对于 TiDB 集群中的服务,需要采用心跳检测等方式来检查其可用性。例如,可以使用第三方工具或者自行开发的心跳检测脚本来检查 TiDB、PD、TiKV 等组件的运行状态。任何服务出现宕机或不可用,都要及时报警并采取措施。
  3. 监控集群吞吐量和延迟:针对 TiDB 集群中的业务需求和性能要求,可以通过监控 TiDB 集群的吞吐量和延迟来了解其性能表现和负载情况。例如,可以使用 TiDB Dashboard 或者 TiDB 的监控组件 Prometheus 和 Grafana 等工具来监控和展示吞吐量和延迟的数据。
  4. 定期进行测试和演练: TiDB 集群的可用性也需要演练和测试。定期进行灾难恢复演练,例如关闭某个节点或者关闭某个服务等演练,以验证 TiDB 集群的高可用性和恢复能力。

总之,对于 TiDB 集群化安装,需要综合使用多种监控工具和技术手段,全面监测和管理 TiDB 集群的各个节点、服务和性能指标,及时发现问题并进行处理,从而确保 TiDB 集群的高可用和数据安全。

1 个赞

dashboard和prometheus+grafana tidb都自带了

:thinking:监控可用性?我一般都是看grafana的overview页面,dashboard的实例界面
或者tiup cluster display也可以看到集群状态

dashboard和prometheus+grafana都可以监控呀

自带监控就够用了

不定期打开集群的dashboard监控,看下节点状态和集群的资源使用信息(cpu、内存、硬盘之类的),也可以设置prometheus的告警规则

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。