从库tikv leader数相差特别大

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:v3.0.6
  • 【问题描述】:从库tikv leader数相差特别大,不知道是什么原因引起的

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

可以参考下官方博客 TiDB 最佳实践的 leader/region 分布不均衡

从库目前没有任何查询操作,只有draner同步写入,查看日志tidb.log发现leader频繁选举,不知道是什么原因导致的

这种日志特别多

您好: 麻烦上传下监控信息over-view,tidb, detail-tikv,多谢 (1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

1赞

监控信息over-view,tidb, detail-tikv已经存放网盘上,麻烦下载帮忙看下

链接: https://pan.baidu.com/s/1sLG4Hujwq2g_XDaqcKjF5Q 提取码: erq3

您好:

  1.下载detail-tikv解压后文件损坏
  2. 建议检查每个tikv节点的容量是否一致
     (1) df -h 检查tikv目录容量是否相同
     (2)如果容量相同,可以检测下每个磁盘的性能是否相同
     (3)如果都相同,根据此方法调整参数尝试一下, https://pingcap.com/blog-cn/best-practice-pd/#1-leader--region-%E5%88%86%E5%B8%83%E4%B8%8D%E5%9D%87%E8%A1%A1

1.detail-tikv我重新上传了png文件 2.磁盘空间如下,之前用tidb-liting同步过数据,/data/deploy/data/import不知道这里面的数据是不是没用的了?不知道这个有没有影响?可不可以清除这个目录的数据

磁盘的性能是一样的

您好: tikv会根据总的空间和可用空间计算tikv的score分数,data import占用了一部分空间,导致计算score时受到影响,如果确认这些import的数据无用,可以删除这些数据,再等tikv自动均衡,多谢

清理了数据观察了1个多小时好像没啥效果,想问下还有什么因素会影响tikv的score评分系统? 看了tikv的日志时不时会有这个报错

不知道这个会不会有影响

  1. 请使用pd-ctl工具查看store和member信息
  2. 所有的tikv日志都有这个报错吗? 请上传一个tikv.log日志,多谢

您好,tikv每台偶尔都会有这样的报错,store和member信息和tikv日志都在网盘上麻烦下载帮忙看下, 链接: https://pan.baidu.com/s/1Y-v_uhHzoLIEgn6W2GOWnw 提取码: bfza

您好:

    1. 从反馈的store信息看,分数相差比较大,可用空间相差几十G. 请确认目录空间清理干净,没有其他文件占用
    2. 可以依次重启tikv,然后观察是否会均衡数据.
        ansible-playbook rolling_update.yml -t tikv

看样子已经起作用了:+1:感谢您专业的解答

请问最后需要重启,才能均衡吗? 还是等一段时间?

没有重启,等了两个多小时才好了

好的,多谢反馈.

今早6点左右发现leader还有点不均衡现象

发现raft store cpu这段时间也是比较高 不知道是不是还有其他因素影响了

监控信息 over-view,tidb, detail-tikv 放到网盘上,麻烦帮忙提供一下。

时间段:22:00 - 10:00

  1. current当前的leader是平衡的,你要检查下005是不是tikv进程重启了
  2. raft store cpu高,看下当时是不是有大量业务
  3. 新的问题,麻烦重开个帖子,多谢