我们发现了这个问题之后对线上所有集群做了一个巡检,提前1个月通知出来,然后主动与业务沟通择时重启。如果一个集群从搭建完成后没有重启过,大概率会所有节点会同时异常重启,为减轻对业务的影响,所以加的巡检,同时主动重启。
附:每个集群可以登录到tidb-server执行如下sql找出2年没有重启的tikv节点。
select INSTANCE,START_TIME,UPTIME,TIMESTAMPDIFF(day,START_TIME,now()) from information_schema.CLUSTER_INFO where type=‘tikv’ and TIMESTAMPDIFF(day, START_TIME, now())>365*2