scheduler is busy

  1. 不是同一业务,上次scheduler is busy是matomo update语句导致的,我把matomo迁到4.x集群了。
  2. 现在这个v5.1集群没有在线业务,只做日志数仓和本公司资源数据存储使用。
  3. 就是这个集群报错导致spark task重试造成了重复数据。我们是csv文件用spark导入tidb,有些是有主键的表,这样的表用的是 on duplicate key update子句,报错不会受影响;有些表是没有主键的表,每次覆盖写入,写入期间报错,部分task会重试,导致数据重复。

麻烦新开一个帖子,我们来看这个问题吧,和开始的应该不是同一个问题,多谢。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。