用TiDB Operator 部署的tidb集群，discovery一直重启正常吗

daylight · 2024 年5 月 16 日 03:43

【 TiDB 使用环境】测试
【 TiDB 版本】v7.5.1
【复现路径】安装部署后discovery一直重启，但是集群能用，创库建表都没问题
【遇到的问题：问题现象及影响】安装部署后discovery一直重启，但是集群能用，创库建表都没问题
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】

日志

zhaokede · 2024 年5 月 16 日 04:17

不正常，看看日志输出了什么

daylight · 2024 年5 月 16 日 05:45

下面那图是discovery日志，还需要看什么日志吗

lemonade010 · 2024 年5 月 16 日 06:18

discovery 是一个用于组件间发现的服务。每一个 TiDB 集群会对应存在一个 discovery Pod，用于该集群中组件发现其他已经创建的组件。这个应该不影响数据库使用吧，

daylight · 2024 年5 月 16 日 06:20

是不影响使用，就是一直重启会不会是个雷

有猫万事足 · 2024 年5 月 16 日 06:45

github.com

pingcap/tidb-operator/blob/v1.5.3/cmd/discovery/main.go#L124C1-L139C5


      
          	srv := http.Server{Addr: ":6060"}
          	sc := make(chan os.Signal, 1)
          	signal.Notify(sc,
          		syscall.SIGHUP,
          		syscall.SIGINT,
          		syscall.SIGTERM,
          		syscall.SIGQUIT,
          	)
          
          	go func() {
          		sig := <-sc
          		klog.Infof("got signal %s to exit", sig)
          		if err2 := srv.Shutdown(context.Background()); err2 != nil {
          			klog.Fatal("fail to shutdown the HTTP server", err2)
          		}
          	}()

起码代码上看，是收到4种信号才会推出。

然后，日志里面明确写了是收到了SIGTERM这个信号。
而kill默认发送的就是这个信号。
现在不清楚到底是不是有什么脚本在kill，还是有什么其他的原因在里面。

TiDBer_QYr0vohO · 2024 年5 月 16 日 07:56

不正常，kubectl describe pod -n tidb-cluster-new 看下呢

daylight · 2024 年5 月 16 日 09:17

就是被kill了，也没啥有用的信息

yiduoyunQ · 2024 年5 月 16 日 10:57

看下 operator 日志

stokcli · 2024 年5 月 16 日 12:50

不正常的

TiDBer_QYr0vohO · 2024 年5 月 16 日 15:40

嗯，看不出来啥问题。你的k8s的node现在资源是够的吧，看看改下deployment pod的启动命令，用tail -f阻塞一下，然后exec进入pod手动执行discovery相关命令，看看能不能找到有用的信息

daylight · 2024 年5 月 17 日 01:24

tidb-controller-manager日志

yiduoyunQ · 2024 年5 月 17 日 01:45

看日志不是 Operator 内部触发的，从 k8s 层面着手查下吧，oom kill node 调度之类的

zhaokede · 2024 年5 月 17 日 04:27

解决了没有

友利奈绪 · 2024 年5 月 17 日 06:50

重启试试

kkpeter · 2024 年5 月 17 日 06:55

这个东西好像没啥用，不影响集群

小龙虾爱大龙虾 · 2024 年5 月 17 日 08:14

这个日志看起不就是从 k8s 层面 kill 了吗

daylight · 2024 年5 月 17 日 09:43

没有噢

daylight · 2024 年5 月 17 日 09:43

重启过，没用

daylight · 2024 年5 月 17 日 09:44

目前就是找kill的原因