dm 同步数据慢 大量慢log,sync 速度追不上线上

  1. 根据最后一个提供的 dm-worker 的监控来看,relay 与 master 差异不大,但是 execution latency 在提供的监控时间段内比较高,所以有可能是下游 tidb 引起的同步效率不高。当然也需要关注 DM-worker 所在的机器网络是否有被打满或者网络阻塞或抖动的情况引起。
  2. 从搜集脚本以及 TiKV 机器的磁盘负载不均匀的表现有可能存在热点问题引起,具体关于热点的排查以及处理方法可以参考下: TiDB 常见问题处理 - 热点
  3. 另外在监控中发现在监控提供的时间段内有比较多的读写冲突。这部分可以在 TiDB 的日志以及 TiKV 的日志再进行分析。
  4. 由于 17:00 添加了新节点,导致集群出现了性能抖动,所以希望在后续重做当前延迟较高的 dm-worker 的 task 的时候可以提供 日志、监控、slowlog 配合统一时间进行排查。
  5. slowlog 根据提供的部分发现有大量的 update 。可以先看下这些 update 的执行计划是否符合预期。