TiKV節點log訊息 [Error]["send raft msg err"]

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:v4.0.8
  • 【问题描述】:機器皆佈署在GCP上
    近日觀察alertmanager常常會送出 [[FIRING]TiDB tikvclient_backoff_count error
    TiDB tikvclient_backoff_count error]錯誤訊息,如下圖:
    image

實際到TiKV log檔查看發現此錯誤(Error: send raft msg err)頻繁被紀錄到log中
幾乎每秒都發生
[2020/12/21 09:01:38.486 +08:00] [ERROR] [transport.rs:163] [“send raft msg err”] [err=“Other("[src/server/raft_client.rs:208]: RaftClient send fail")”]

[2020/12/21 09:01:39.178 +08:00] [ERROR] [transport.rs:163] [“send raft msg err”] [err=“Other("[src/server/raft_client.rs:208]: RaftClient send fail")”]

[2020/12/21 09:01:40.020 +08:00] [ERROR] [transport.rs:163] [“send raft msg err”] [err=“Other("[src/server/raft_client.rs:208]: RaftClient send fail")”]

能請顧問指導一下是我們配置上有哪邊沒注意到導致的嗎?
附件為佈署的yaml
topology.yaml (5.4 KB)

Hi 顧問好,

有找到以下reference文章

由於我們TiKV狀態是alive,所以應該是那時間段網路有延遲嗎?

出現這個錯誤會對資料面一致性有影響嗎?

pd-ctl 执行 store 命令看下 172.31.13.105:20170 这个节点的状态
image

如果该节点状态显示正常,可以拿一下这个节点的 tikv.log 看下

Hi GangShen顧問你好,

不過那個節點(172.31.13.105)是TiFlash節點,應該沒有TiKV log。

TiFlash 节点是否运行正常
可以执行 pd-ctl store 看下结果
以及拿一下对应日志看下

Hi GangShen顧問你好,

檢查TiFlash節點log,在2020-12-21 09:01這個時間點並無發現有Error,截圖如下:

Welcome to 关键字是在 TiFlash 进程启动的时候会打印的日志,从日志看 TiFlash 进程是在 2020-12-21 09:17 启动的,之前的日志在 2020-12-20 13:20 之后就没有打印了,感觉 TiFlash 挂掉了。所以 TiKV 日志中报的是连接不上 TiFlash 的日志。

2020-12-20 13:20 的时候对 TiFlash 有做过什么操作?
目前 TiFlash 进程启动之后,TiKV 日志中还有继续报错么?
可以检查一下 TiFlash 的监控数据看下 2020-12-20 13:20 到 2020-12-21 09:17 这段时间的监控数据是否有,判断一下期间 TiFlash 进程的状态。

1 个赞

Hi GangShen,

感謝顧問解說,想起來應該是TiFlash那台機器空間滿了,所以呈現down狀態,後來擴容後,才把
TiFlash再開啟,看來是因為這樣才會報send raft msg err。

Thanks a lot!

嗯,那应该是这个原因。

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。