br 备份v4.0.9 失败

v4.0.9

【 TiDB 使用环境】生产环境 or 测试环境 or POC
【 TiDB 版本】
【遇到的问题】
【复现路径】做过哪些操作出现的问题
【问题现象及影响】
Cluster type: tidb
Cluster name: tidb-test
Cluster version: v4.0.9
Deploy user: tidb
SSH type: builtin
Dashboard URL: http://172.17.30.118:2379/dashboard
ID Role Host Ports OS/Arch Status Data Dir Deploy Dir


172.17.30.116:9093 alertmanager 172.17.30.116 9093/9094 linux/x86_64 Up /tidb-data/alertmanager-9093 /tidb-deploy/alertmanager-9093
172.17.30.116:3000 grafana 172.17.30.116 3000 linux/x86_64 Up - /tidb-deploy/grafana-3000
172.17.30.117:2379 pd 172.17.30.117 2379/2380 linux/x86_64 Up|L /tidb-data/pd-2379 /tidb-deploy/pd-2379
172.17.30.118:2379 pd 172.17.30.118 2379/2380 linux/x86_64 Up|UI /tidb-data/pd-2379 /tidb-deploy/pd-2379
172.17.30.119:2379 pd 172.17.30.119 2379/2380 linux/x86_64 Up /tidb-data/pd-2379 /tidb-deploy/pd-2379
172.17.30.116:9090 prometheus 172.17.30.116 9090 linux/x86_64 Up /tidb-data/prometheus-9090 /tidb-deploy/prometheus-9090
172.17.30.117:4000 tidb 172.17.30.117 4000/10080 linux/x86_64 Up - /tidb-deploy/tidb-4000
172.17.30.118:4000 tidb 172.17.30.118 4000/10080 linux/x86_64 Up - /tidb-deploy/tidb-4000
172.17.30.119:4000 tidb 172.17.30.119 4000/10080 linux/x86_64 Up - /tidb-deploy/tidb-4000
172.17.30.117:20160 tikv 172.17.30.117 20160/20180 linux/x86_64 Up /tidb-data/tikv-20160 /tidb-deploy/tikv-20160
172.17.30.118:20160 tikv 172.17.30.118 20160/20180 linux/x86_64 Up /tidb-data/tikv-20160 /tidb-deploy/tikv-20160
172.17.30.119:20160 tikv 172.17.30.119 20160/20180 linux/x86_64 Down /tidb-data/tikv-20160 /tidb-deploy/tikv-20160

【附件】

请提供各个组件的 version 信息,如 cdc/tikv,可通过执行 cdc version/tikv-server --version 获取。

备份的命令和日志如下
[tidb@tidb-30-117 bakcup]$ br backup db --pd “172.17.30.117:2379” --db CRM_Tag --storage “local:///bakcup/full” --ratelimit 120 --log-file backupdb_CRM_Tag.log
Detail BR log in backupdb_CRM_Tag.log
Database backup <…> 0.00%
Error: context deadline exceeded

pd和kv节点都是这个权限授权的目录。如下。172.17.30.117和118和119三个节点都有这个目录。
mkdir /bakcup/full
chmod 777 /bakcup/full
chown tidb:tidb /bakcup/full

backupfull.log (3.2 MB)

bei备份的报错的具体日志,我在pd的172.17.30.117安装的br工具跑的备份。但是失败

tikv_stderr.log (26.4 KB)

日志如下。田大佬

上传中:tikv.log.2022-07-12-15%3A19%3A07.001059417…

日志如下
,请帮忙查看

thread ‘main’ panicked at ‘invalid auto generated configuration file /tidb-data/tikv-20160/last_tikv.toml, err expected an equals, found a comma at line 207’, src/config.rs:2401:13
note: run with RUST_BACKTRACE=1 environment variable to display a backtrace. 这不是 kv 配置有问题吗。

日志1上传中:tikv.log.2022-07-12-15%3A19%3A07.001059417…

日志二个,

嗯。我看到了。我传下配置文件,。帮忙看看如何改
last_tikv.toml (14.0 KB)

你这是cpu绑定错了吧

如何知道的
,我没太看明白

参考这个一下,看上去报错内容是一致的

是不是 grpc-memory-pool-quota 这个参数设置的太大?

看提示是207行的配置有问题,可以对比一下last_tikv.toml和.tiup/storage/cluster/clusters/集群名称/meta.yaml里的配置是否一样,或者meta.yaml里有配置异常的,

hh.zip (4.7 MB)

日志如下.

谢谢大家,问题已经解决问题在119的kv的节点是坏的,影响了物理的br备份,
把119的kv离线就好了变成了Pending Offline 状态

这种情况感觉需要配好监控,出问题了第一时间告警

该主题在最后一个回复创建后60天后自动关闭。不再允许新的回复。