我现在是这么配置的,prometheus、grafana、altermanager都是尽可能复用公司已有组件,可以参考一下。
monitoring_servers:
- host: xxx.xxx.xxx.xxx
# 将监控数据往远程prometheus写一份(需要远端开启remote_write),远端prometheus会通过thanos组件将历史监控数据上传到S3中,方便历史查询
remote_config:
remote_write:
- url: http://prometheus-proxy.xxxxxx.com/api/v1/write
# 复用公司的altermanager,方便和已有告警系统集成
external_alertmanagers:
- host: alertmanager.xxxxxx.com
web_port: 80
# 因为监控信息写入到了远端,所以本地只需要保留15天
storage_retention: 15d
# 方便调整告警规则
rule_dir: /root/deploy-config/tidb-config/rules
# 默认instance label是IP,在dashboard显示不直观,这里手动改成可识别的文字
additional_scrape_conf:
relabel_configs:
- source_labels:
- __address__
target_label: target
- regex: xxx.xxx.xxx.xxx:(.*)
replacement: tikv6-sata-e001:$1
source_labels:
- __address__
target_label: instance