【异常】- region丢失导致tidb集群瘫痪

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

执行了tikv、tidb、pd的所有节点重启,重启后没有恢复,异常tikv节点继续报错"peer is not leader for region xxx",持续一段时间后开始报错为"KvService response batch commands fail",这段时间tidb始终不可用。

最后第二次重启tikv后集群恢复

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

  1. 请在tikv服务器上查看dmesg,在问题发生时是否有异常
  2. 请grep Welcome tikv.log 看看问题出现时,tikv是否有重启
  3. 如果有重启,请帮忙反馈tikv.log日志
  4. 请采集overview tidb detail-tikv disk-performance 问题发生时的监控

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

感谢回复

1、dmesg中没有最近10天的异常记录
2、查看tikv重启 和人为操作时间点还一致,没发现自动重启


4、overview:

tidb:


tikv details:



disk:

  1. 从监控看,duration在11点附近增长。
  2. grpc的量增长了很多
  3. 看起来是coprocessor请求增长的较多
  4. 查看内存命中下降比较明显。
  5. 当时是否存在批量的任务执行? 能否反馈问题发生时10-12的tidb.log 和 tikv.log 信息