tidb的集群化安装如何监控可用性

喵父666 · 2023 年11 月 22 日 07:25

【 TiDB 使用环境】测试环境
【 TiDB 版本】7.1.2

tidb菜鸟一只 · 2023 年11 月 22 日 07:26

没看懂，tidb安装本身就有dashboard和prometheus+grafana组合监控了啊

Fly-bird · 2023 年11 月 22 日 07:28

1、服务器级别监控告警可以自己实现
2、tidb服务监控告警在grafana里设置告警

swino · 2023 年11 月 22 日 07:28

可以考虑以下几个方面：

监控节点健康状态：对于 TiDB 集群的每个节点，可以通过 TiDB Dashboard 等可视化监控平台或者系统自带的监控工具来监控其健康状态，包括 CPU、内存、磁盘、网络等指标。如果节点出现异常或者宕机，就需要及时报警并采取措施，以保证集群的稳定运行。
监控服务可用性：对于 TiDB 集群中的服务，需要采用心跳检测等方式来检查其可用性。例如，可以使用第三方工具或者自行开发的心跳检测脚本来检查 TiDB、PD、TiKV 等组件的运行状态。任何服务出现宕机或不可用，都要及时报警并采取措施。
监控集群吞吐量和延迟：针对 TiDB 集群中的业务需求和性能要求，可以通过监控 TiDB 集群的吞吐量和延迟来了解其性能表现和负载情况。例如，可以使用 TiDB Dashboard 或者 TiDB 的监控组件 Prometheus 和 Grafana 等工具来监控和展示吞吐量和延迟的数据。
定期进行测试和演练： TiDB 集群的可用性也需要演练和测试。定期进行灾难恢复演练，例如关闭某个节点或者关闭某个服务等演练，以验证 TiDB 集群的高可用性和恢复能力。

总之，对于 TiDB 集群化安装，需要综合使用多种监控工具和技术手段，全面监测和管理 TiDB 集群的各个节点、服务和性能指标，及时发现问题并进行处理，从而确保 TiDB 集群的高可用和数据安全。

zhanggame1 · 2023 年11 月 22 日 07:28

dashboard和prometheus+grafana tidb都自带了

Kongdom · 2023 年11 月 22 日 13:45

监控可用性？我一般都是看grafana的overview页面，dashboard的实例界面
或者tiup cluster display也可以看到集群状态

dba远航 · 2023 年11 月 23 日 00:52

dashboard和prometheus+grafana都可以监控呀

zxgaa · 2023 年11 月 23 日 01:00

自带监控就够用了

随缘天空 · 2023 年11 月 23 日 01:40

不定期打开集群的dashboard监控，看下节点状态和集群的资源使用信息（cpu、内存、硬盘之类的），也可以设置prometheus的告警规则

system · 2024 年1 月 22 日 01:41

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。