某个TIKV节点 频繁报错failed to send extra message

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.1.2
【复现路径】


集群先是出现查询很慢的情况,先看了资源,资源都是正常的,各个节点也运行正常,查看日志
某个TIKV节点 频繁报错,导致 查询缓慢 请问这是什么原因 ,重启 TIKV节点后 也报错 ,但报错频次明显下降,查询也正常 ,请问这是什么原因导致的

具体来说,Transport(Full) 错误表示 TiKV 的内部消息队列或者网络连接对于发送的数据已经达到了它的容量限制。这可能是由于多种原因造成的,比如:

  1. 网络瓶颈:如果 TiKV 节点之间的网络连接带宽有限或者网络延迟很高,可能会导致消息队列填满。
  2. 系统资源限制:服务器上的 CPU、内存或磁盘 I/O 资源可能不足,导致 TiKV 不能及时处理或发送消息。
  3. 配置问题:TiKV 的某些配置参数可能设置得不合理,比如消息队列的大小、发送速率限制等。
  4. 高负载:TiKV 集群可能正在处理大量的读写请求,导致内部消息积压。

要解决这个问题,你可以尝试以下几个步骤:

  1. 检查网络连接:确保 TiKV 节点之间的网络连接是稳定的,并且带宽足够。
  2. 监控服务器资源:使用监控工具(如 Prometheus、Grafana 等)来检查 TiKV 服务器的 CPU、内存和磁盘使用情况,确保服务器资源没有耗尽。
  3. 调整配置:根据集群的实际情况,调整 TiKV 的配置参数,比如增加消息队列的大小、调整发送速率限制等。
  4. 水平扩展:如果集群的负载很高,可以考虑增加更多的 TiKV 节点来分担负载。
  5. 查看日志:更详细地查看 TiKV 的日志文件,可能会有更多关于错误原因和上下文的信息。
  6. 升级版本:如果你使用的是较旧的 TiKV 版本,可能会存在一些已知的性能问题或缺陷。升级到最新版本可能会解决这些问题。

PD正常吗