task 任务DM_binlog_file_gap_between_master_syncer同步缓慢问题分析

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:4.0 DM v1.0.6
  • 【问题描述】:想说现象吧,syncerbinlog远远落后masterBinlog:如下:

分析:
show processlist 查看95%以上的连接都是sleep

top信息
image
io:
image
grafana截图


按照https://docs.pingcap.com/zh/tidb-data-migration/stable/handle-performance-issues#binlog-replication-模块的性能问题及处理方法 文档分析各个指标,也不确定是哪里有问题,还请帮忙看看同步缓慢的原因。

PS:这边的同步方案是:2个上游mysql属于分库分表,dm开启了16个task同步16个表。

  1. 看起来基本都是 insert 操作,可以检查下 tidb 集群的监控,看下入库的 duration 信息。 如果 tidb 写入很慢,可以参考 TiDB 调优辅助神器 TiDB Performance Map 即将上线!欢迎试用反馈 检查下读写是否哪个环节有瓶颈。
  2. 如果 tidb duration 比较正常,可以查看 dm 配置的同步进程数量,如果目标主机 cpu,内存,io 占用很少,可以考虑增加同步进程试试。

这个问题最近一直没有解决,今天继续查看此任务,发现transaction execution latency 这个值已经非常大了,如下:
transaction execution latency 一般应在几十毫秒。如果该值过高,则通常需要根据下游数据库的监控对下游性能进行排查
image

查看tidb的性能情况耗时挺高的,但是看主机的性能应该都还行,请帮忙继续看看,谢谢。



  1. 麻烦上传下 over-view , tidb, detail-tikv 的完整监控,多谢。

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

tikv的图,分了2个了还是传不上来,能否通过微信或者邮箱发给你?

可以参考其它帖子那样上传,或者发到百度之类的网盘,多谢

截图都放到这里了,麻烦提取,谢谢。

链接: https://pan.baidu.com/s/1tPkVIa5CBdQkf7azkiOYJg 提取码: w5mr

麻烦您再确认下,我进去看是空的

不好意思,重新弄了一下
链接: https://pan.baidu.com/s/1E_5KOZyTJ6IRgBG3jlVueg 提取码: 2958

请问这个能看出什么问题吗?现在观察同步的速度,10分钟左右才能同步完一个binlog,稍微来几个binlog就需要几个小时才能同步完……

  1. 查看 tidb 的 duration 大概再 500 ms

  2. 查看 tikv 的 99 duration 在 3s 多,这里你给的 tidb 和 tikv 监控时间不一致

  1. propose wait duraiton 较高

  1. append log 和 commit log 都比较慢

  1. 请问是 ssd 吗,感觉盘的速度比较慢? 麻烦上传一个这个时间段的 node_exporter 监控 tikv 实例的信息,多谢。

6个tikv节点,是要截6张图吗

先看下 167 和 48 吧,多谢。

其实我一直想确认tikv的磁盘是不是ssd,这能确定磁盘不是ssd?

image

  1. 查看 io 使用率接近 100%

  2. cpu 的 iowati 超过了 23%

  3. 磁盘写 latency 达到了 20ms,盘写的有些慢

  4. rotational 为 1 应该是 HDD,或者可以使用smartctl直接查看吧。

HARDDISK吧。tikv的磁盘,最低要求是要SSD吗
image