tispark读取tikv,join报错:"Error reading region .... Handle region task failed"

另外能提供一下 tikv 的日志吗?(包含超时2分钟的请求的日志)

不是分析型的任务。

刚才我比较了一下,不知道有没有关系。

能否帮忙看一下 TiKV 中的 Region 大小分布?可以通过监控的 TiKV-trouble-shooting 界面,看下 large region 的大小。

麻烦在监控里获取一下 region 信息,我们分析一下
PD -> Statistics - Balance -> Store Region size

你好,这样可以吗?

能提供一下 tikv 的日志吗?(包含超时2分钟的请求的日志)

logs.zip (238.3 KB)

这是刚才运行报错的时间段内的所有tikv日志

提供的日志中没有发现 “Execution terminated due to exceeding the deadline” 的错误

目前初步判断 coprocessor 在读取某个或者某几个特定 region 数据的时候,处理时间超过2分钟导致超时报错

如果只 select 某几列能成功运行吗?

几个字段可以,全字段就不行了

方便提供一下这张图对应时间的日志吗?


今天8点10分到20重新运行的,刚才的日志就是这个时间段的。

能否提供一下 今天8点10分到20 的 p99999 图 以及 spark driver 出错日志?

driver日志和以前一样的错误,我是on k8s跑的,pod删掉了,日志提供不了。。

在 TiDB 里跑一下这条 sql 看下结果吧
SHOW TABLE qk_eng_guarantee.perio_artical REGIONS

region.json (198.7 KB)

麻烦加个where条件运行一下

SHOW TABLE qk_eng_guarantee.perio_artical REGIONS where `approximate_size(mb)` > 256;

{
“SHOW TABLE qk_eng_guarantee.perio_artical REGIONS where approximate_size(mb) > 256”: [
{
“REGION_ID” : 18959,
“START_KEY” : “t_1650_r_34302768”,
“END_KEY” : “t_1677_”,
“LEADER_ID” : 91114,
“LEADER_STORE_ID” : 7,
“PEERS” : “56853, 91114, 287367”,
“SCATTERING” : 0,
“WRITTEN_BYTES” : 0,
“READ_BYTES” : 0,
“APPROXIMATE_SIZE(MB)” : 23530,
“APPROXIMATE_KEYS” : 16710804
}
]}

这个region 超级大啊

应该是这个region特别大导致读取数据超时,建议手动把这个 region split 一下,切小到 96M 每个 region 大小