两地三中心的性能问题

Hacker_ZcrkjsVg · 2022 年4 月 21 日 09:02

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：
【 TiDB 使用环境】
生产环境，北京两地沈阳异地

将leader节点切换在北京

出现很多慢查询，很简单的sql 有一定的比例出现问题，北京内部两地的机房ping 2-3ms

之后将leader节点固定在一地的机房后速度恢复

机器性能都正常

网络正常

不知道从哪入口查询

这个切换后时间对比

禁止向异地机房调度 Raft Leader
config set label-property reject-leader dc shunyi

16点 45 切换后

【概述】场景 + 问题概述

【背景】做过哪些操作

【现象】业务和数据库现象

【问题】当前遇到的问题

【业务影响】

【TiDB 版本】
5.2

【应用软件及版本】

【附件】相关日志及配置信息

TiUP Cluster Display 信息
TiUP CLuster Edit config 信息

监控（https://metricstool.pingcap.com/)

TiDB-Overview Grafana监控
TiDB Grafana 监控
TiKV Grafana 监控
PD Grafana 监控
对应模块日志（包含问题前后 1 小时日志）

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

h5n1 · 2022 年4 月 21 日 09:24

leader在北京2个机房时可以trace 下SQL 看看时间消耗，基本应该是网络造成的延迟，
server.grpc-compression-type: gzip 这参数也设置了吧

Hacker_ZcrkjsVg · 2022 年4 月 22 日 01:41

怎么trace 有指导吗

h5n1 · 2022 年4 月 22 日 01:42

执行trace select …

Hacker_ZcrkjsVg · 2022 年4 月 22 日 01:47

有文档说具体点吗我不太会，同时我们发现同一个sql 有一定的比率导致时间长很多，但是正常情况不应该那么慢，导致我们两地三中心的方案没法接受呢

h5n1 · 2022 年4 月 22 日 01:49

Hacker_ZcrkjsVg · 2022 年4 月 22 日 01:50

我试试同时发现

这个监控正常吗一般什么情况会造成重传呢

h5n1 · 2022 年4 月 22 日 02:00

同城之间机房是什么网络

Hacker_ZcrkjsVg · 2022 年4 月 22 日 03:46

裸光 100G TCP Retrans 这个有什么方式排查吗

黑盒监控有个ping 5S的毛刺

Hacker_ZcrkjsVg · 2022 年4 月 22 日 04:20

异地的store的相应时间慢了，所以是网络问题吗这个时间包含网络吗，还是就是tikv的问题

h5n1 · 2022 年4 月 22 日 08:28

看下tikv监控页面的 TiKV Details --> gRPC --> 99% gRPC message duraion ，如果这个高就是网络问题

Hacker_ZcrkjsVg · 2022 年4 月 24 日 03:05

请帮助看下这个网络是否有问题

Hacker_ZcrkjsVg · 2022 年4 月 24 日 03:07

Hacker_ZcrkjsVg · 2022 年4 月 24 日 09:37

同城北京之前ping在2-3ms 异地的ping在16MS左右

h5n1 · 2022 年4 月 24 日 09:55

按下面导出下问题时段overview/pd/tidb/tikv detail监控吧，导出监控步骤：
打开监控面板，选择监控时间
打开 Grafana 监控面板（先按 d 再按 E 可将所有 Rows 的 Panels 打开，需等待一段时间待页面加载完成）
https://metricstool.pingcap.com/ 1 使用工具导出 Grafana 数据为快照

YuchongXU · 2022 年4 月 25 日 00:41

建议检查同城网络质量情况。

哈喽沃德 · 2022 年4 月 25 日 01:43

瓶颈主要在网络上，应该搞个专线。

BraveChen · 2022 年4 月 25 日 01:50

多半是网络问题，应该搞专线

Hacker_ZcrkjsVg · 2022 年4 月 25 日 07:49

test

h5n1 · 2022 年4 月 25 日 07:56

上传的没数据，正常导出来文件应该有几M，导出这几个页面，一定要等到所有面板展开，数据加载完