binlog 不能增长

TiDB Version: v4.0.4

集群所有节点的状态都正常

现象描述:
binlog 自从3月23日之后再未增长,而savepoint 文件仍在正常刷新,日志文件中没有发现错误或者异常。

部分配置截取如下:
tidb:
binlog.enable: true
binlog.ignore-error: true

pump_servers:

  • host: x.x.x.x
    ssh_port: 22
    port: 8250
    deploy_dir: /tidb-data/deploy/pump-8250
    data_dir: /tidb-data/data/pump-8250
    log_dir: /tidb-data/log
    resource_control: {}
    arch: amd64
    os: linux
    drainer_servers:
  • host: x.x.x.x
    ssh_port: 22
    port: 8249
    deploy_dir: /tidb-data/deploy/drainer-8249
    data_dir: /data/binlog
    log_dir: /tidb-data/log
    config:
    syncer.db-type: file
    arch: amd64
    os: linux

已知情况: binlog存放路径 /data 是从其他机器mount过来的nfs 路径,之前曾因重启导致中断过,过后目录恢复之后,重启整个tidb集群都不能实现binlog增长增长。

你说的是不是重启后,TiDB binlog 下游写入不能继续同步吗 ?可以参考一下官方的常见故障排查文档。https://docs.pingcap.com/zh/tidb/v4.0/handle-tidb-binlog-errors

重启后binlog没有写 binlog文件,我这里没有配置下游,您这个文档上的跟我的问题不一样

如图,savepoint文件在不断更新,但 binlog 文件只更新到了 3月23日,后面没再写了

有解决么,关注下这种疑难杂症

参考下这个 FAQ 先排查下。

你这个链接报 404, binlog.enable 确定是打开状态,不是这个参数原因。

现在这个问题已经自己解决,解决的办法是经过N次 scale-in pump/drain, N次scale-out ,再加上N次重启整个集群,产生的原因仍未知

:sweat: 抱歉,可以再试试这个链接,应该是可以访问的,多谢。

问题解决的办法,就是全部重新退群,然后重组?
这也是算是办法了,估计是状态丢了…:ghost:

savepoint文件在不断更新,但 binlog 文件只更新到了 3月23日

当时有没有尝试重新挂载下 pump 的 data_dir 目录?