tidb 某个查询报错

tidb 5.0.3
查询报错,然后过了20多分钟自动好了,又报出来了,反复不稳定, 不知道啥问题。
查询语句:
mysql> select count(*) countNum from sdhz_rpt.dws_sdb_crm_lp_add_wechat_clue_conver_full_d where stat_dt=‘2022-04-28’;
ERROR 1105 (HY000): get store failed: 2: invalid store ID 181496807, not found


补充一下这表的操作是这样的:
他这个是先查一下看看是多少,然后根据ID循环删除,删除成功后再看看是否按照删除条件删干净了,如果是的话再灌入,灌入之后再做表表的分析anaylse talbe。
现在是:删除成功后再看看是否按照删除条件删干净了
这步报错了。

后边又报出来了

1 个赞

集群状况是正常的?

1 个赞

正常,就是发现的这个查询有问题。其他可能也有,没人反馈 应该不多。

2 个赞

之前有不正常的缩容操作吧

2 个赞

admin check table 是正常的么

2 个赞

大概10天前有缩容tiflash 节点的操作,是正常的下线流程,但是grafana上监控数据显示异常,pd-ctl 查看里面stores 已经没有tombstone状态的。 下线完后,我执行了tiup cluster prune。 后来大佬又让我
执行了一次 stores remove-tombstone,监控数据正常了。

10天前的操作,如果有问题应该早就爆出来了。那些表都是每天固定使用的一些表。

2 个赞

1 个赞

监控中看到所有TiKV/TiFlash都是正常在线吗?

1 个赞

是正常的

1 个赞

从inforation_schema.tikv_store_status看下store_id,address 还包不包含报错的那个

1 个赞

没有了,之前是6个tiflash ,3月份下了一个,上上周下了一台,还剩4个。

1 个赞

又报了,直接查几条数据没事。 count 不行

1 个赞

报错了store ID 181496807,查查这个id是哪个存储节点的,看看状态吧

1 个赞

pd-ctl region store 181496807 这个看下

1 个赞

image

1 个赞

information_schema.cluster_info 和pd-ctl store 看看是否有报错的那个store id

1 个赞

没有这个store,
这是当前整个集群的store:

» store
{
“count”: 8,
“stores”: [
{
“store”: {
“id”: 1,
“address”: “xx.xx.xx227:20160”,

},
{
  "store": {
    "id": 11585778,
    "address": "xx.xx.xx193:20160",
   
},
{
  "store": {
    "id": 290158285,
   
},
{
  "store": {
    "id": 290158286,
    
},
{
  "store": {
    "id": 4,
   
  }
},
{
  "store": {
    "id": 5,
    "address": "xx.xx.xx186:20160",
   
  }
},
{
  "store": {
    "id": 2811498,
    
},
{
  "store": {
    "id": 60800510,
    "address": "xx.xx.xx183:3930",

]
}

1 个赞

你多查几次看看报错的store id是不是保持那2个,还是说会随机变化的

1 个赞

检查一下是否有定时任务

检查看一下 日志 或者几点日志 看看抖动出现的原因能不能找出来

1 个赞