TiDB 的问答社区

【异常】- region丢失导致tidb集群瘫痪

🪐 TiDB 技术问题部署&运维管理

Christian_zh (Christian Zh) 2020 年4 月 26 日 13:39 1

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：3.0.11
【问题描述】：
tidb整体耗时突然增大，读写处理都非常缓慢，集群基本瘫痪。

image1362×1132 82.3 KB

从dashboard中可以看到tikv某个分片出现region missing的问题，

image2772×552 96.3 KB

从tikv的日志中可以看到"peer is not leader for region xxx"的报错"

image2872×1666 1.02 MB

执行了tikv、tidb、pd的所有节点重启，重启后没有恢复，异常tikv节点继续报错"peer is not leader for region xxx",持续一段时间后开始报错为"KvService response batch commands fail",这段时间tidb始终不可用。

最后第二次重启tikv后集群恢复

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

索引查询耗时异常高

yilong (yi888long) 2020 年4 月 26 日 14:15 2

请在tikv服务器上查看dmesg，在问题发生时是否有异常
请grep Welcome tikv.log 看看问题出现时，tikv是否有重启
如果有重启，请帮忙反馈tikv.log日志
请采集overview tidb detail-tikv disk-performance 问题发生时的监控

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上，按 ?可显示所有快捷键，先按 d 再按 E 可将所有 Rows 的 Panels 打开，需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

Christian_zh (Christian Zh) 2020 年4 月 27 日 03:24 3

感谢回复

1、dmesg中没有最近10天的异常记录
2、查看tikv重启和人为操作时间点还一致，没发现自动重启

4、overview：

tidb：

tikv details：

disk：

yilong (yi888long) 2020 年4 月 27 日 10:49 4

从监控看，duration在11点附近增长。

image1093×446 156 KB
grpc的量增长了很多

image1312×647 156 KB
看起来是coprocessor请求增长的较多

image1296×510 107 KB
查看内存命中下降比较明显。

image1575×773 127 KB
当时是否存在批量的任务执行？能否反馈问题发生时10-12的tidb.log 和 tikv.log 信息

©2023 TiDB Community. 京ICP备20022552号-5 京公网安备11010802043344号