tidb 取事务 Start Ts 耗时比较高

TiDBer_lei_xin · 2023 年12 月 23 日 07:59

【 TiDB 使用环境】生产环境
【 TiDB 版本】 5.3.3
tidb监控显示获取tso 时间长

慢查询里面确实显示是获取tso时间长：

机器配置是64c512G,磁盘是nvme的

Jellybean · 2023 年12 月 23 日 10:23

获取 startTS 是 tidb-server 去访问 PD Leader 拿到的 TSO，这块时间比较久，就需要排查这条链路的相关监控情况。

可以分下面几个方向进行排查和确认：

检查 tidb-server 到 pd leader 的网络延迟、网络抖动情况
检查 pd 集群，尤其 pd leader 是否繁忙，重点排查其 CPU 等使用情况
检查 GRPC 调用时延，确认网络请求调用是否正常

TiDBer_lei_xin · 2023 年12 月 23 日 10:27

1.持续ping了一会，网络时延和网络抖动应该都没有。
2.pd leader 的cpu使用率很低，pd使用的是64核的物理机，nvme的磁盘。
3. 这块看起来pd是没有问题；但是pd client 的cmd duration操作确实很慢。

4.这是tidb节点的cpu使用率，64核使用率也很低。

zhanggame1 · 2023 年12 月 23 日 11:53

切下pd leader试试

Jellybean · 2023 年12 月 23 日 17:34

日志呢，确认一下 tidb.log 和 pd.log 有无异常日志

TiDBer_lei_xin · 2023 年12 月 24 日 00:19

日志检查也没有什么发现。

dba远航 · 2023 年12 月 25 日 00:42

查看PD的负载情况，还有网络状况

裤衩儿飞上天 · 2023 年12 月 25 日 01:27

单纯看这张图，可能出在tidb server侧，着重检查下，各种监控、日志，看看有什么异常

TiDBer_lei_xin · 2023 年12 月 25 日 02:20

tidb server上报错信息如下：
[terror.go:307] [“encountered error”] [error=“Unknown charset id 0”] [stack=“github.com/pingcap/tidb/parser/terror.Log\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tidb/parser/terror/terror.go:307\ngithub.com/pingcap/tidb/server.(*Server).onConn\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tidb/server/server.go:520”]

TiDBer_lei_xin · 2023 年12 月 25 日 02:27

tidb-server的所有日志：
[conn.go:1065] [“read packet failed, close this connection”] [conn=22107731] [error=“[server:8052]invalid sequence 31 != 0”]
[conn.go:724] [“failed to check the user authplugin”] [conn=22107735] [error=“Unknown charset id 0”]