insert数据失败问题

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
tidb 5.4

【概述】 场景 + 问题概述
研发报告部分insert失败

[图片]
查看tikv日志:

查看grafana监控,内网流量比较大:

注:所有服务器使用的是千兆网卡,交换机也是千兆的,请问这个问题是网络导致的吗
【应用框架及开发适配业务逻辑】

【背景】 做过哪些操作

【现象】 业务和数据库现象

【问题】 当前遇到的问题

【业务影响】

【TiDB 版本】

【附件】 相关日志及监控(https://metricstool.pingcap.com/)


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

7 个赞

1)网卡是千兆还是万兆?
2)tiup cluster display下看看集群状态
3) store_id=3的tikv进程是否异常?

4 个赞

1、网卡是千兆网卡
2、


3、store_id=3的kv进程正常,但是也有报错,请求store_id=1故障

3 个赞


这个是dashboard里面的信息,看状态dashboard认为tikv重启过,但是tikv的日志里面没有重启信息

4 个赞

display 看到的tikv正常,如果tikv进程没有挂掉,那就是负载太高,导致rpc没有响应。
1)集群负载如何?
2)tikv主机负载如何?
3)是否有热点问题?

6 个赞

1、集群硬件负载不高(因为项目起步阶段,现在主要是导入数据阶段)
2、tikv的硬件负载也不高


3、 这个是6小时内的流量可视化

3 个赞

那些最亮的部分 就是有数据热点

3 个赞

从kv的内存监控上看,13:10的时候tikv是不是重启了啊,我看看是否被oom了

3 个赞


看来是被oom了

2 个赞

image
您看一下,这是我tikv的配置参数,我应该怎么处理

2 个赞

另外看主机负载过高,主要看cpu和io这块,cpu直接看 使用core/总core,io用iops没法直接度量,可以IO带宽和io_wait这些指标。

3 个赞

多少core的主机,你这个有点偏大

2 个赞

2 个赞

可以在Grafana里看集群服务器的CPU、IO、内存等信息。地址是 ip:3000

2 个赞

2 个赞

三个tikv同时被oom,oom的那个时间,有做什么操作吗?

2 个赞


tikv的内存是128G,为什么60多G就被oom了,oom的时候研发在灌数据,测试在进行压力测试

2 个赞

单实例部署还是多实例部署?

2 个赞

是混合部署么?

2 个赞

就这一套集群,一共10台机器,2tidb3pd3kv 1tiflash

2 个赞