为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。
- 【TiDB 版本】:v4.0.8
- 【问题描述】:機器皆佈署在GCP上
近日觀察alertmanager常常會送出 [[FIRING]TiDB tikvclient_backoff_count error
TiDB tikvclient_backoff_count error]錯誤訊息,如下圖:
實際到TiKV log檔查看發現此錯誤(Error: send raft msg err)頻繁被紀錄到log中
幾乎每秒都發生
[2020/12/21 09:01:38.486 +08:00] [ERROR] [transport.rs:163] [“send raft msg err”] [err=“Other("[src/server/raft_client.rs:208]: RaftClient send fail")”]
[2020/12/21 09:01:39.178 +08:00] [ERROR] [transport.rs:163] [“send raft msg err”] [err=“Other("[src/server/raft_client.rs:208]: RaftClient send fail")”]
[2020/12/21 09:01:40.020 +08:00] [ERROR] [transport.rs:163] [“send raft msg err”] [err=“Other("[src/server/raft_client.rs:208]: RaftClient send fail")”]
能請顧問指導一下是我們配置上有哪邊沒注意到導致的嗎?
附件為佈署的yaml
topology.yaml (5.4 KB)
Hi 顧問好,
有找到以下reference文章
由於我們TiKV狀態是alive,所以應該是那時間段網路有延遲嗎?
出現這個錯誤會對資料面一致性有影響嗎?
pd-ctl 执行 store 命令看下 172.31.13.105:20170 这个节点的状态
如果该节点状态显示正常,可以拿一下这个节点的 tikv.log 看下
Hi GangShen顧問你好,
不過那個節點(172.31.13.105)是TiFlash節點,應該沒有TiKV log。
TiFlash 节点是否运行正常
可以执行 pd-ctl store 看下结果
以及拿一下对应日志看下
Hi GangShen顧問你好,
檢查TiFlash節點log,在2020-12-21 09:01這個時間點並無發現有Error,截圖如下:
Welcome to 关键字是在 TiFlash 进程启动的时候会打印的日志,从日志看 TiFlash 进程是在 2020-12-21 09:17 启动的,之前的日志在 2020-12-20 13:20 之后就没有打印了,感觉 TiFlash 挂掉了。所以 TiKV 日志中报的是连接不上 TiFlash 的日志。
2020-12-20 13:20 的时候对 TiFlash 有做过什么操作?
目前 TiFlash 进程启动之后,TiKV 日志中还有继续报错么?
可以检查一下 TiFlash 的监控数据看下 2020-12-20 13:20 到 2020-12-21 09:17 这段时间的监控数据是否有,判断一下期间 TiFlash 进程的状态。
1 个赞
Hi GangShen,
感謝顧問解說,想起來應該是TiFlash那台機器空間滿了,所以呈現down狀態,後來擴容後,才把
TiFlash再開啟,看來是因為這樣才會報send raft msg err。
Thanks a lot!
system
(system)
关闭
10
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。