update执行时间长，偶尔出现超时Lock wait timeout exceeded; try restarting transaction

Rilakkuma · 2021 年11 月 24 日 07:48

【 TiDB 使用环境】版本4.0.8

【概述】 update执行时间长，偶尔超时Lock wait timeout exceeded; try restarting transaction

【背景】
tidb_txn_mode pessimistic
表 t 数据量3w ，
表结构
create table t (
id bigint not null auto_random,
c1 varchar(100),
c2 varchar(768),
c3 varchar(1024),
c4 int,
…
primary key (id),
key idx1(c1),
key idx2(c2),
key idx3(c5,c6,c7,c8),
key idx4(c6,c5,c7,c8));

update语句：
update t set c4=0 where c1=‘xxx’ and c2=‘xxx’ and c4=1;

【现象】
执行update，耗时20s左右，偶尔50s+超时。
执行计划：
id task actrows operator info execution info
update_5 root 0 N/A time:24.99527s,loops:2, …
SelectLock_7 root 2 for update time:24.99508s,loops:4
IndexLookup18 root 2 time:3.96151s,loops:4…
IndexScan15 cop[tikv] 3 table:t index:idx2(c2),range… proc max:1ms,min:1ms
Selection17 cop[tikv] 0 eq(t.c4,1),eq(t.c1,xxx) time:0ns,loops:0
TableScan16 cop[tikv] 0 table:t, keep order:false time:0ns,loops:0

执行时间：
解析耗时 72.6us
优化耗时 444.8us
Coprocessor累积等待耗时 0ns
Coprocessor累积执行耗时 1ms
累计重试等待耗时 0ns
取commit Ts耗时 0ns
Local Latch Wait耗时 0ns
Resolve Lock耗时 0ns
Prewrite阶段耗时 0ns
Commit阶段耗时 0ns
Commit重试等待耗时 0ns
SQL执行时间 25s

Coprocessor读取：
Coprocessor请求数 2
可见版本数 4
遇到版本数 5
最长处理时间实例 xxxx
最长等待时间实例 xxxx

事务：
事务号 xxxxx
写入Key个数 0
写入数据量 0B
Prewrite涉及Regions个数 0
事务重试次数 0

【问题】
1、如何排查耗时？
2、如何判断执行时间长的原因，如何优化？

caiyfc · 2021 年11 月 24 日 08:10

学会看执行计划就可以排查耗时了，这个执行计划中有TableScan和IndexScan前者是扫了全表，后者扫了idx2(c2)整个索引，都比较耗时。
关注执行计划可以参考 EXPLAIN 概览 | PingCAP Docs

Rilakkuma · 2021 年11 月 24 日 08:16

全表只有3w数据，即使扫描全表也就花了3s，后面selectlock花了24s，请问selectlock是什么动作，为什么会需要这么长时间？

caiyfc · 2021 年11 月 24 日 08:45

这是被锁住了，要检查一下锁冲突的问题

听风吹雨 · 2021 年11 月 24 日 11:34

创建一个c4的索引试试？

Rilakkuma · 2021 年11 月 25 日 02:22

c4 只有0和1两个值，且0占80%，创建索引会有效吗？

Rilakkuma · 2021 年11 月 25 日 04:25

从Grafana 的 KV Errors 中看，
Lock Resolve OPS 面板中，not_expired 和 resolve 分别为0.0444 和 0.0667
KV Backoff OPS面板中，没有出现 tikvLockFast 指标和 txnLock 指标
是否说明没有出现读写冲突？

听风吹雨 · 2021 年11 月 25 日 07:57

看你的查询是c4=1，这个可以过滤掉很多记录了吧？那这个索引就有效，你可以测试一下。

Rilakkuma · 2021 年11 月 26 日 09:22

好的，我先试试

caiyfc · 2021 年11 月 26 日 09:48

这么看来好像是没有冲突，但是执行计划里面的算子应该是有锁，比较奇怪。等大佬看看这是啥情况吧

听风吹雨 · 2021 年11 月 30 日 06:35

@Rilakkuma

如果你的问题已解决：

如果你自己排查解决了，请附上你的解决方案，对自己的方案标记【对我有用】。
如果别人帮助你解决了问题，那么请选择【最有价值】的回复，标记为【对我有用】，对帮助你的人，也是一种嘉奖和赞赏。
- 被标记了【对我有用】的问题，才能被搜索到，这样子也能帮助他人更高效地找到答案。标记了【对我有用】还能获得 5 积分，5 经验值。

如果你的问题还没有解决，请继续追问及反馈你遇到的问题。

h5n1 · 2022 年7 月 8 日 06:39

这个 selectlock算子有什么作用？具体是做什么的？目前看到除了select for update外，update/delete的执行计划里也有。

tidb狂热爱好者 · 2022 年9 月 28 日 05:50

是锁冲突和select无关

system · 2022 年10 月 31 日 19:09

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。