dm向多副本容灾集群写入速度较慢目前5副本

HGHNICE_666 · 2025 年6 月 23 日 07:03

【TiDB 使用环境】生产环境
【部署方式】腾讯云/32c128GNVME盘
【集群数据量】11T
【集群节点数】13

目前有八个同步任务，分了8个task且均为默认dm参数但tidb未接入业务流量，会经常出现延迟请教大家看如何优化

有猫万事足 · 2025 年6 月 23 日 07:52

sql整体的执行速度太慢，几乎都是慢查询了。

从dm的监控看也是类似的结论。

感觉还是要从优化tidb侧的慢查询入手。

HGHNICE_666 · 2025 年6 月 23 日 07:55

猫哥这边没接入业务流量都是dm的流量之前旧集群3副本的就没这个延迟这个延迟是五副本的情况

有猫万事足 · 2025 年6 月 24 日 03:52

你怀疑没问题，还是要看看延迟拆解的图。确认一下。

HGHNICE_666 · 2025 年6 月 24 日 05:59

time:30.1s, loops:2, Get:{num_rpc:2, total_time:30s}, rpc_errors:{context deadline exceeded:1},tikvRPC_backoff:{num:1, total_time:56ms}, time_detail: {total_process_time: 308.4µs, total_wait_time: 349µs, total_kv_read_wall_time: 664.6µs, tikv_wall_time: 680.3µs}, scan_detail: {total_process_keys: 1, total_process_keys_size: 232, total_keys: 1, get_snapshot_time: 324.6µs, rocksdb: {block: {cache_hit_count: 14, read_count: 1, read_byte: 4.36 KB, read_time: 123.7µs}}} 猫哥有空看看集群节点网络是没啥问题的最大延迟跨区10ms 为什么rpc调用时间那么久呢Get:{num_rpc:2, total_time:30s}

全部慢语句都是rpc时间很久

有猫万事足 · 2025 年6 月 24 日 10:04

有一次rpc超时了没连上，同时期，网络有啥异常没有？

HGHNICE_666 · 2025 年6 月 24 日 10:06

没啥异常的所以很奇怪

有猫万事足 · 2025 年6 月 24 日 10:14

https://docs.pingcap.com/zh/tidb/stable/grafana-performance-overview-dashboard/#database-time-by-sql-phase

看看这个图

HGHNICE_666 · 2025 年6 月 24 日 10:15

现在rpc_errors:{context deadline exceeded:1}}, 还是一直在出现

有猫万事足 · 2025 年6 月 24 日 10:28

这个就已经不正常了。高得离谱。仅获取tso已经是慢查询了。都不用干别的。

有那个节点跨子网了？这个按我的经验，应该是某个节点ping pd leader到25ms左右了。

HGHNICE_666 · 2025 年6 月 24 日 10:30

是有跨区的目前是10ms延迟

HGHNICE_666 · 2025 年6 月 24 日 10:37

看了下其他都在一个区的集群 tso也是很高这个咋解决呢

有猫万事足 · 2025 年6 月 24 日 10:38

https://docs.pingcap.com/zh/tidb/stable/three-data-centers-in-two-cities-deployment/#参数配置优化

你要看看这个部分。

希望你没有弄3个子网，如果是2个子网还有救。

确保leader只在一个子网内，然后pd通过优先级也控制在这个子网内。
也就是所有的leader和pd在一个子网内，ping控制在1ms以下最好。

HGHNICE_666 · 2025 年6 月 24 日 10:42

好的我这边继续优化下我看看效果

AN_12 · 2025 年6 月 24 日 11:37

有后续发下参考参考

有猫万事足 · 2025 年6 月 24 日 15:23

帖子下面有这个按钮，选择关注就可以了。

dm向多副本容灾集群写入速度较慢 目前5副本

dm向多副本容灾集群写入速度较慢目前5副本