k8s中prometheus operator告警收敛配置

1,919次阅读
没有评论

共计 900 个字符,预计需要花费 3 分钟才能阅读完成。

k8s 的 prometheus operator 如果报警没有收敛配置,触发报警后,会一直报警,导致人容易麻木。
这里只是用到了 prometheus 告警收敛的最基本配置。
在 k8s 中修改 alertmanager.yaml 密文。

"global":
  "resolve_timeout": "5m"

route:
  group_by: ['alertname']
  receiver: 'default'
  routes: 
  - receiver: webhook
    match_re:
      severity: warning|info|critical|emergency
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 3h

receivers:
- name: 'default'
  webhook_configs:
  - send_resolved: true
    url: 'http://wechat-webhook.monitoring.svc.cluster.local:8888/alert'
    max_alerts: 0

- name: 'webhook'
  webhook_configs:
  - send_resolved: true
    url: 'http://wechat-webhook.monitoring.svc.cluster.local:8888/alert'
    max_alerts: 0

原理是基于标签的告警处理路由。
每一个告警都会从配置文件中顶级的 route 进入路由树,需要注意的是顶级的 route 必须匹配所有告警 (即不能有任何的匹配设置 match 和 match_re),每一个路由都可以定义自己的接受人以及匹配规则。默认情况下,告警进入到顶级 route 后会遍历所有的子节点,直到找到最深的匹配 route,并将告警发送到该 route 定义的 receiver 中。

这里配置了一个 receiver 为 webhook,并且匹配 severity 告警级别,如果匹配到了就走 webhook,没有匹配到就走 default
实际我配置 default 是多余的,但是后面可能有新需求保留。

更多内容请参考官当文档。当然如果你有开发能力也可以在 webhook 报警端抑制。

微信扫描下方的二维码阅读本文

正文完
 0
yx
版权声明:本站原创文章,由 yx 于2022-09-21发表,共计900字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)
验证码

bttech

文章搜索
一言一句话
-「
随机文章
elasticsearch7.8.0索引备份到阿里云oss以及恢复

elasticsearch7.8.0索引备份到阿里云oss以及恢复

背景需求,阿里云新建了一套 elk 但是数据需要进行迁移备份, 解决方案使用 logstash 迁移很慢,10...
降本增效之-应用部署到k8s

降本增效之-应用部署到k8s

之前应用都采用了传统的服务器部署,很多服务器都会有内存或者 cpu 浪费的情况。把所有的服务准备都迁移到 k8...
降本增效之-自建k8s监控体系

降本增效之-自建k8s监控体系

使用阿里云 ack, 如果使用阿里云的监控体系一个月是需要几百块钱的监控费用,为了节约这笔费用。使用开源的 p...
ubuntu20 TeslaT4 安装stable diffusion-webui

ubuntu20 TeslaT4 安装stable diffusion-webui

升级系统 执行 nvidia-smi 查看是否安装了相关驱动 如果执行 nvidia-smi 没有相关命令就需...
降本增效之-实现prometheus对阿里云oss nas监控

降本增效之-实现prometheus对阿里云oss nas监控

阿里云 oss nas 需要时刻巡检注意监控流量以及存储大小,需要监控是担心 oss 滥用,nas 的瓶颈问题...