-
查看发现导入的集群空 region很多,将max-merge-region-keys max-merge-region-size调整后,lightning进程过一段时间就会触发pause 调度,空 region 数下降就会停止,再次查看该配置发现配置的参数就被清为0;
→ lightning local 导入之前就是会暂定调度,暂停调度有利于快速导入,避免 merge or split 导致 region 、leader 变化。至于 XXX-keys 和 XXX-size 这 2 个参数归 0 之前处理过,正常情况下跟 lightning 异常退出有关,因为 lightning local 是先 pause schedule ,待导入完成后再 resume schedule。如果我没记错,应该是会在导入期间给 归 0。 -
dumpling全量下载了2.7T的数据,lightning全量导入create库和表已完成,在执行insert语句时执行了5个多小时,到2022/10/24 20:05后面就不动了。
→ 我看配置文件用的是 local 模式,应该没有 insert 语句的执行,是 csv–>sst–>tikv 文件直接导入 -
从 profile 我倒是没看出啥有用的信息,不过看截图里又出现过 tcp connection reset by peer 应该是 tcp 连接上有些问题。但至于他和导入性能有多大关系,不一定。 最好采一份可以看执行时间消耗的图,直接看卡在那个函数
curl http://{TiDBIP}:10080/debug/zip?seconds=60 --output debug.zip
说回来,查导入慢:
- lightning.log 没有任何异常点?
- 磁盘负载情况有没有看?
- 从 cpu idle 看本地翻译 csv → sst 的时候倒是没调起来多少性能,下游的 tikv 性能有看吗?
先扔上来一份 lightning 自身的 log 吧。
btw:正常情况下,应该比这个速度低点 → https://docs.pingcap.com/zh/tidb/v4.0/tidb-lightning-backends#tidb-lightning-后端