【 TiDB 使用环境】
【概述】场景+问题概述
【背景】通过查看9090端口
【现象】出现的现象是无法登录Grafana页面访问,从外界访问也是TIDB的数据库也是没有办法登录的
Grafana服务没有起来TIKV服务也有异常
【业务影响】目前集群不能使用
【TiDB 版本】TiDB为3.0.4 Ansible 部署
【附件】
通过查看日志
grafana
Alert Rule returned no data logger=alerting.evalContext ruleId=36 name=“Critical error alert” changing state to=no_data
alertmanager.log
msg=ERROE on notify err="require_tls:true(default),but “\localhost:25” does not advertise the Syarttls extension
prometheus.log
component=notifier alertmanager=http:grafana:9093/api/v1/alerts count=2 msg “ERROE sending alert” err=Post http:grafana:9093/api/v1/alerts:
dial tcp grafana:9093: connect:connection refused
pd.log
[WARN][prpclog.go:60][transport:http2Server.HandlesStreams failed to read frame:read tcp X.X.X.71:2379->X.X.X.72:500774]:read :connection reset by peer
5 个赞
这个是我在Prometheus 9090 端口看到的情况
2 个赞
xfworld
(魔幻之翼)
13
网络拓扑图,你能手绘一个么,很简单的就行
你贴的图,没看懂…
3 个赞
节点之前都是可以ping通的但是没有做免密 这样是可以的么?Grafana是因为没有启动所以不能访问
3 个赞
xfworld
(魔幻之翼)
17
2个问题:
- 内网是通的么? 你能否通过内网正常的访问集群? 然后来完成你需要的备份工作?
- 外网不通,可能是因为网络策略的问题,这个需要专业的网络工程师帮你排查
备份的话:
数据量少 dumping
数据量多 br
dumping 可以生成 SQL,csv
BR 是专用文件,恢复的时候只能按照原名来恢复,就是不能改名,可以恢复完了在进行 DDL 更名
如果是线上环境,建议你追加ticdc,实现动态数据接入到新的集群,这样某个时间点直接切换到新集群就可以了
1 个赞
您好,TiKV有一台没启动起来我看到有这样的日志,内网直接是通的,pd是起来的我可以通过br的方式进行备份,以及数据同步到新得集群?!
1 个赞
这个机器安装的gragana pd-server Prometheus 这三个服务,我先还还想问个问题,如果有两台TIKV的版本是3.0.10,现在这两台起不来,我查看到说是这个版本的bug,我现在通过备份系统数据,然后新建两台3.0.11版本的,然后在连接上之前的其它集群,这样会不会存在版本不兼容的问题?TiKV节点CPU过高
1 个赞
xfworld
(魔幻之翼)
22
这个版本有点低,不建议用BR 备份了
小版本不会不兼容的,可以放心部署,优先平稳集群的状态,然后完成数据的同步
2 个赞
如果从3.0.4到3.0.11进行升级这样会有问题么?现在有两个服务是没起来一个Tidb 一个Tikv,如果想要使用上面那种方式进行恢复,我需要将整个系统盘进行备份过去,还是只需要我把这两个服务的某个文件夹下的东西给替换就可以?还希望您进一步的给指导一下 感谢!!!!
1 个赞
xfworld
(魔幻之翼)
24
目前tikv 有几个状态正常的节点?当时设定的几个副本?
通过ps -ef 查看tikv-server 发现有三个是正常的,两没有启动 查看pd.toml 发现有三个max-replicas
xfworld
(魔幻之翼)
26
1 个赞