dm数据同步停止,新建任务异常

新建dm任务同步异常:
“msg”: “[code=38032:class=dm-master:scope=internal:level=high], Message: some error occurs in dm-worker: ErrCode:10005 ErrClass:"database" ErrScope:"downstream" ErrLevel:"high" Message:"fail to initial unit Sync of subtask task_oss_merge_incremental_0304 : query statement failed: SELECT cp_schema, cp_table, binlog_name, binlog_pos, binlog_gtid, exit_safe_binlog_name, exit_safe_binlog_pos, exit_safe_binlog_gtid, table_info, is_global FROM task_oss_merge_incremental_0304.task_oss_merge_incremental_0304_syncer_checkpoint WHERE id = ?" RawCause:"Error 9005: Region is unavailable" , Workaround: Please execute query-status to check status.”,
“source”: “source_merge_154”,

tikv异常:有大量这类异常
[2024/03/03 04:40:22.586 +08:00] [ERROR] [peer.rs:3613] [“failed to send extra message”] [err_code=KV:Raftstore:Transport] [err=Transport(Full)] [target=“id: 5804039 store_id: 2”] [peer_id=5804038] [region_id=5804037] [type=MsgHibernateResponse]
[2024/03/03 04:40:22.586 +08:00] [ERROR] [peer.rs:3613] [“failed to send extra message”] [err_code=KV:Raftstore:Transport] [err=Transport(Full)] [target=“id: 5563775 store_id: 2”] [peer_id=5563774] [region_id=5563773] [type=MsgHibernateResponse]
[2024/03/03 04:40:22.586 +08:00] [ERROR] [peer.rs:3613] [“failed to send extra message”] [err_code=KV:Raftstore:Transport] [err=Transport(Full)] [target=“id: 5167111 store_id: 2”] [peer_id=5167110] [region_id=5167109] [type=MsgHibernateResponse]
[2024/03/03 04:40:22.586 +08:00] [ERROR] [peer.rs:3613] [“failed to send extra message”] [err_code=KV:Raftstore:Transport] [err=Transport(Full)] [target=“id: 5653847 store_id: 2”] [peer_id=5653846] [region_id=5653845] [type=MsgHibernateResponse]

问下这是不是tikv分区出问题了?怎么解决?我扩容一台机器,好像也没用

tikv 节点现在状态都是正常的吗?

集群所有组件节点状态都正常

我看报错是 transport(Full) ,是不是 tikv 响应比较慢,看看 grafana 监控 tikv 整体响应时间正常吗?

你集群没问题吗?你手工执行一下 SELECT cp_schema, cp_table, binlog_name, binlog_pos, binlog_gtid, exit_safe_binlog_name, exit_safe_binlog_pos, exit_safe_binlog_gtid, table_info, is_global FROM task_oss_merge_incremental_0304 .task_oss_merge_incremental_0304_syncer_checkpoint WHERE id = ?试试,

1 个赞

报错Region is unavailable,集群异常,大量写入超时

应该是tikv的问题,数据无法写入

是异常的,部分查询有问题,应该是部分分区出问题了

是不是有大sql 把 kv 打爆了, 看下 cpu ,io 有用满的吗?

那你集群压力太大,数据都查不出来了,肯定dm报错了,看下日志和监控,看看集群为啥压力这么大吧。。。

看热力图现在读写压力不高,集群资源也很充足,我现在都把所有dm任务停掉了,

资源很充足

旧表旧数据查询正常,新表新数据查询异常,报错[Err] 9005 - Region is unavailable

现在查还报错吗?排查下
https://docs.pingcap.com/zh/tidb/v5.1/tidb-troubleshooting-map#11-客户端报-region-is-unavailable-错误

可以再看下 grafana 监控 pd 里面的 region healthy, region 有没有异常的

等了一段时间可以了,原因是有张表包含大字段,我将它过滤后重新同步,可以了,不知什么原因这个task为什么不报错,而是影响了整个集群

1 个赞

可以了,现在等数据同步

KV:Raftstore:Transport 感觉是TIKV的日志应用出现了异常

一般是DM-worker 中出现了错误,可能是由于下游数据库的异常导致的,查查

集群正常嘛