集群流量异常

dbaspace · 2022 年9 月 29 日 05:09

集群流量异常，通过TIDB_HOT_REGIONS 查看，

基本都是这个表stats_histograms，analyze参数设置如下图:

这种流量比较大怎么控制好？

songxuecheng · 2022 年9 月 29 日 06:18

tidb什么版本？

Kongdom · 2022 年9 月 29 日 06:20

analyze这个没考虑时区么？要改成 +0800 才是我们这边的时间

dbaspace · 2022 年9 月 29 日 06:33

V4.0.9,这2天才发生的

dbaspace · 2022 年9 月 29 日 06:39

嗯，这套集群已经跑了1年了多了，TIDB是千兆网卡，这几天在某些时间段网卡直接被打满，通过nethogs基本是TIDB-SERVER 网络流量为received 达到100MB/S

Kongdom · 2022 年9 月 29 日 06:41

慢查询里有慢语句么？

dbaspace · 2022 年9 月 29 日 06:43

TIDB-SERVER机器网络被打满：

触发TIKV 响应耗时比较大：

tidb-server节点请求耗时也比较高，集群整体响应慢

dbaspace · 2022 年9 月 29 日 06:46

就是MYSQL 那个表语句没发现，业务表SQL请求集群正常情况都很快。

Kongdom · 2022 年9 月 29 日 06:50

建议调整analyze的时间范围再观察看看。现在这种设置，现在应该在自动analyze的区间内

songxuecheng · 2022 年9 月 29 日 06:56

h5n1 · 2022 年9 月 29 日 07:02

tidb server接收流量高也可能是SQL执行计划有问题，看下慢SQL有异常或变化吗

xfworld · 2022 年9 月 29 日 07:06

最好通过 prometheus 观察下，先看看是哪些节点的网络流量有异常，在进行排查

dbaspace · 2022 年9 月 29 日 07:07

是几个TIKV节点往TIDB-SERVER发，几个总流量旧把TIDB-SERVER节点打满了

dbaspace · 2022 年9 月 29 日 07:08

业务SQL 基本没变化的，新加的SQL 正常查询都非常快

dbaspace · 2022 年9 月 29 日 07:09

行，等晚上在观察观察看

wuxiangdong · 2022 年9 月 29 日 08:23

收集统计太频繁了，引起了热点，0.5调成0.6，调整一下呢

xiaohetao · 2022 年9 月 29 日 08:26

看戏这张表的最后analyze 是什么时候，及其表的健康度

dbaspace · 2022 年9 月 29 日 09:20

嗯刚又来了一波。

dbaspace · 2022 年9 月 29 日 09:23

业务表是有很多健康度低的表，TIDB数据是通过DM写入的，业务表频繁的变更，很容易导致监控度变低

xiaohetao · 2022 年9 月 29 日 10:28

统计信息的时间段可以短一点，限制在业务低峰期或者晚上