tikv日志大量报错,并且异常重启频繁

【 TiDB 使用环境】生产环境 /测试/ Poc
生产环境
【 TiDB 版本】
5.2.1
【复现路径】做过哪些操作出现的问题
查看日志发现tikv日志大量报错,而且从监控中发现异常重启频繁,没有大任务cpu却飙升很高(5个tikv,几天前一台异常,目前剩下4台在运行,是不是偶数节点也有影响)


【遇到的问题:问题现象及影响】
【资源配置】
【附件:截图/日志/监控】

机器到没关系 就是挂掉的机器得立即下线。然后tikv oom一般是业务影响。

你看一下dashboard里面的慢sql @@set_execution_time=2000;防止雪崩。

确实是oom了

这是 tiflash 呢… 和 tikv 没啥关系…

我节点名叫tiflash,把tiflash缩容掉在扩容得tikv

我去,,, 配置和其他的节点是一样的么?

检查下 region 的分布,是否平衡

然后 慢SQL 也需要好好查下

配置一样的,运行了快1年了,没啥大问题,就最近突然有点崩

没事,不要慌,检查下就知道问题在哪了

找一下sql问题

新建文本文档.txt (4.1 KB)
这种sql是不是可以不用添加tiflash副本

加块ssd吧京东250元 1t 立马效果会好很多。

机械盘任何优化效果都很差

自己掏钱 250 就当请客了。

sql没展示全

@Jolyne 提供一下完整 SQL 吧,这条 Insert into … select 语句的 scan 数据量看样子不小,都是多列数据。你可以从两个维度来排查或者提供相关信息:

  1. select 查询语句是否是全表扫,或者 stats: pseudo ,先分析一下 SQL 是否能够优化。提供 explain analyze 看一下执行计划;
  2. 看一下 TiKV-details 的 Cop 的监控信息,判断一下是否 table full scan 导致大量的数据扫导致的,提供 clinic 的监控可以一起看;

Clinic Service 这个是clinic报告

sql.txt (7.6 KB)
expian.xlsx (12.0 KB)