【SOP 系列 18】TIDB 集群诊断信息收集 Diag Collector 使用手册

Diag Collector 使用手册

简介

Diag Collector ( diag ) 是一个用于一键收集 TiDB 集群信息的工具,并可尽量保持各项数据维持与线上真实环境接近的展示方式,以便于研发排查问题使用。

由于目前还处在较早期的试用阶段,欢迎向我们反馈使用中遇到的问题与建议。

此工具目前仅支持由 TiUP Cluster ( tiup cluster ) 管理的 TiDB 集群。

使用

当前最新 diag 版本为 v0.0.3 (2021-09-24)

此工具须在安装 TiUP 并可用于管理 TiDB 集群的中控机上运行,即:可以通过执行 tiup cluster display <cluster-name> 查看到集群信息的地方。

建议通过较新版本的 TiUP 来调用此工具(>= v1.5.0),更老一些的版本未经过测试,但应当也可以正常使用。

安装

此工具已非官方工具的身份发布在 TiUP 的默认(公开)源中。

在安装有 TiUP 的中控机上,执行以下命令安装工具:

tiup install diag

备注:Diag 工具目前是内部使用,暂时列为非官方工具,通过 tiup list 无法查看,可以通过 tiup list --all 查看。

收集数据

使用此工具收集集群数据只需要一条命令即可:

$ tiup diag collect <cluster-name> -f "2021-06-23 12:00 +0800" -t "2021-06-23 16:00 +0800" -l 20000 --wait-timeout 600 --exclude monitor -o output-data

其中:

  • -f/--form : 采集时间起始点,默认为当前时刻的2小时前,如果不带时区(+0800)默认为UTC, 也支持 -f="-3h" 这种格式,指定收集最近几小时的数据。
  • -t/--to : 采集时间结束点,默认为当前时刻,如果不带时区(+0800)默认为UTC
    • 可通过形如 +0800 的语法指定时区,如 -f "12:30 +0900"
  • -l : 传输文件时的带宽限制,单位 Kbit/s , 默认为 10000 (即 scp-l 参数)
  • -o : 存储采集后数据的路径,工具会自动在该路径下新建一个名称中包含时间和 session ID 的子目录,默认会存放在 TiUP 目录( ~/.tiup )中
  • 另可通过 -R/--role , -N/--node , --include , --exclude 等参数筛选收集数据的范围,具体参数说明可通过 tiup diag collect -h 查看
  • 更多参数也可以通过 tiup diag collect -h 查看
1赞