18台服务器,新装的4.0版本,正在使用syncer同步生产mysql,发现tidb网卡流量异常

18台服务器安装的4.01版本,3台pd,3台tidb,6台kv,3台tiflash,3台cdc
目前正在使用syncer做同步,链接的1号tidb服务器,同步状态正常
但是,通过系统监控发现,3号tidb服务器网卡流量异常大,但是这台3号tidb没做任何对外服务,也没任何应用连接,syncer同步连接的是1号tidb服务器的网卡流量都比较小
通过系统监控发现,有台kv与这台3号tidb通讯的流量很大

请问,tidb不是对外的sql解释翻译器吗?为什么这台3号tidb对外没有服务,没有任何应用连接,为啥kv与它通讯,而且网卡流量如此之大

1、请提供完整的部署拓扑结构,ip 可屏蔽

2、请提供下下述监控信息,方便问题的排查:

1)网卡流量异常的 tidb 的 node-exporter 监控
2)完整的 tidb 监控面板信息
3)向 tidb 返回数据的 tikv 节点的 node-exporter 监控
4)完整的 tikv-details 监控面板信息

3、请登录到网卡流量异常的服务器,帮忙确认下,除 tidb 外,是否还有其他服务在运行

结构如下:

pd_servers:
  - host: 192.168.100.22
  - host: 192.168.100.21
  - host: 192.168.100.20
tidb_servers:
  - host: 192.168.100.29
  - host: 192.168.100.30
  - host: 192.168.100.31
tikv_servers:
  - host: 192.168.100.23
  - host: 192.168.100.24
  - host: 192.168.100.25
  - host: 192.168.100.26
  - host: 192.168.100.27
  - host: 192.168.100.28

tiflash_servers:
  - host: 192.168.100.32
  - host: 192.168.100.33
  - host: 192.168.100.34
cdc_servers:
  - host: 192.168.100.35
  - host: 192.168.100.36
  - host: 192.168.100.37

monitoring_servers:
  - host: 192.168.100.31

grafana_servers:
  - host: 192.168.100.31

alertmanager_servers:
  - host: 192.168.100.31

tidb_servers:192.168.100.29 这台服务器上 除了TIDB外,无其它应用服务
syncer和其它的连接是在 192.168.100.31这台服务的TIDB的4000端口

通过iftop查看网卡流量,发现是 192.168.100.23 这台TIKV返回的大量网络流量。

我把 这台TIDB进程 杀死后,流量恢复正常,一会其自动启动了,网络流量 又恢复比较大。















你好。麻烦提供一下的信息:

  1. 问题 tidb 以及 tikv 的日志
  2. tidb 执行 ADMIN SHOW DDL 查看一下当前 ddl owner 是在哪个 TiDB

tidb_slow_query.log (154.1 KB) tidb_stderr.log (54.8 KB) tidb.log (2.3 KB) tikv.log (355.2 KB)

  1. 根据您的反馈,流量消耗高的是29服务器的tidb-server进程. 请问,这个流量是固定一直都这么高吗?现在还是消耗这么多?

  2. tidb 日志有一些访问 region leader 切换的日志,由于region 在不断balance导致.

  3. 查看监控有很多empty的region,能否先merge这些空region,之后再观察是否还有大的流量.

可以搜索参考以前的帖子,多谢。