集群出现ERROR 1105

【 TiDB 使用环境】测试
【 TiDB 版本】V4.0.8

【遇到的问题:问题现象及影响】
集群无法添加DDL操作,写入(DML)也会报错,且执行admin show ddl 异常。
tidb日志


查看发生异常的TIKV日志

关闭一个节点的tidb节点后无法启动,异常日志:

DM写tidb集群异常信息:
“msg”: "[code=10006:class=database:scope=not-set:level=high] execute statement failed: REPLACE INTO db_message_sync.tbl_message_queue (id,messageKey,signMD5,groupID,shopID,brandID,cardTypeID,channelSignID,accountNo,chargeNum,toMobile,messageContent,serviceCode,serviceSubCode,bizSrc,messageType,sendType,startSendTime,priorityLevel,effectiveTimeLen,sendCount,lastSendTime,messageStatus,transStatus,remark,properties,action,actionStamp,createTime,intTelCode,thirdCode,thirdMessageKey,thirdAccount,sysCode,costPrice,salesPrice) VALUES (?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?): Error 1105: tikv aborts txn: Txn(Mvcc(DefaultNotFound { key: [109, 68, 66, 58, 50, 57, 50, 52, 51, 255, 0, 0, 0, 0, 0, 0, 0, 0, 247, 0, 0, 0, 0, 0, 0, 0, 104, 84, 97, 98, 108, 101, 58, 50, 57, 255, 50, 54, 56, 0, 0, 0, 0, 0, 250] }))

是不是已经过了GC 时间了? 看报错好像是说找不到key了

现在只要操作都会报错 ,应该gc个没关系,看那报错是MVCC问题 ,,就是不知道通过recover-mvcc有没有效果

我好像理解错了,
image
这个是DM 在同步数据吗? mysql 到tidb ?

嗯 ,gc时间是10分钟的

DM是哪个版本的?
可以参考这个
[FAQ] tikv aborts txn: Txn(Mvcc(PessimisticLockNotFound - :milky_way: 运维指南 / TiDB 常见 FAQ - TiDB 的问答社区 (asktug.com)

tidb report DefaultNotFound while dm sync data · Issue #27303 · pingcap/tidb (github.com)

再就是参考这个issue

现在是集群操作DDL卡,没法操作create/drop,且DDL维护命令(admin show ddl jobs;) 都会报错,已经根据这个操作过了,没用

你按我的方法去做 先关闭一个tidb 关闭后继续关闭其他的 全部关闭后再启动tidb就好了。ddl无法选主。所有tidb关闭 再启动 这个问题就解决了

现在我是关闭掉一个 ,就无法启动 现在还剩下2个节点,我先做下备份集群

admin show ddl 是不是可以看哪个节点是owner?

./target/debug/tikv-ctl ldb --column_family=default --db=./db/ get 0xXXXXXXXXXXXXXXXX --hex
其中0xXXXXXXXX换成你日志中输出的key
-db 换成tikv目录中的db
在所有的tikv节点中都看看,看看到底这个key是不是存在。
如果确实不存在了,那可能是丢了。

tidb-server都挂了 现在都无法启动 :grinning:

集群节点 tidb-server都挂了 提示日志:

执行这个命令 报错,在owner节点操作一样的问题