• 深入理解Alertmanager:源码解读如何自定义Alert的恢复时间

深入理解Alertmanager:源码解读如何自定义Alert的恢复时间

2025-04-27 11:12:59 栏目:宝塔面板 95 阅读

Alertmanager 处理由 Prometheus 服务器等客户端应用程序发送的告警。负责对它们进行分组、静默、抑制、去重并路由到正确的接收方,例如Email、Wechat、Webhook。

Prometheus告警处理逻辑的问题

在prometheus告警体系中,在告警策略正常运行时,检测到有新的符合告警规则的信息,就产生告警发送给alertmanager,如果恢复了,也会产生恢复的信息发送给alertmangaer,这是理想的情况。

如果在告警过程中有发生告警规则的更新,比如发现告警阈值太低,调整了阈值,那么在prometheus的更新过程中,会丢弃老的评估信息,直接使用新的评估规则再次运行评估,评估过程中,如果不会再产生告警,也不会产生恢复信息。

那就会产生一个问题,以前发送给Alertmanager的旧规则生成的告警,不会收到恢复了。

总结下就是:

  • 每个评估周期持续发送告警给Alertmanger。
  • 如果有规则更新,直接新启goroutine执行新的评估,直接放弃老的规则和goroutine。

Alertmanager的修复逻辑

Prometheus评估后发送给Alertmanger的firing告警是没有结束时间的。

[
{
"labels": {
"alert_class": "metric",
"alert_rule_id": "940",
"alert_severity": "1",
"alert_strategy": "cwhistle_demo_00",
"alert_strategy_id": "100",
"alertname": "入流量异常告警",
"city": "chongqing2",
"tcs_instance": "10.27.38.145",
"tcs_product": "clb",
"tcs_type": "clb_tgw_inner_outer"
},
"annotations": {
"query": "barad_tbr{tcs_type=~"clb_tgw_inner_outer",tcs_product=~"clb",clb_tgw_inner_outer=~"10.27.38.145|10.27.38.146"} < 5",
"value": "0.00"
},
"state": "firing",
"activeAt": "2021-01-25T08:31:34.941070644Z",
"value": "0e+00"
}
]

在Alertmanger中,告警的触发和恢复判断是基于时间范围实现的,Alertmanager中Alert定义如下,自带时间范围。

// Alert is a generic representation of an alert in the Prometheus eco-system.
type Alert struct {
// Label value pairs for purpose of aggregation, matching, and disposition
// dispatching. This must minimally include an "alertname" label.
Labels LabelSet `json:"labels"`

// Extra key/value information which does not define alert identity.
Annotations LabelSet `json:"annotations"`

// The known time range for this alert. Both ends are optional.
StartsAt time.Time `json:"startsAt,omitempty"`
EndsAt time.Time `json:"endsAt,omitempty"`
GeneratorURL string `json:"generatorURL"`
}

当 Alert.EndsAt < time.Now() 时判定为恢复。

// Resolved returns true iff the activity interval ended in the past.
func (a *Alert) Resolved() bool {
return a.ResolvedAt(time.Now())
}
// ResolvedAt returns true off the activity interval ended before
// the given timestamp.
func (a *Alert) ResolvedAt(ts time.Time) bool {
if a.EndsAt.IsZero() {
return false
}
return !a.EndsAt.After(ts)
}

在Api的接收过程中,会确保每个Alert的StartsAt和EndsAt有值。

func (api *API) postAlertsHandler(params alert_ops.PostAlertsParams) middleware.Responder {
logger := api.requestLogger(params.HTTPRequest)
alerts := OpenAPIAlertsToAlerts(params.Alerts)
now := time.Now()
api.mtx.RLock()
resolveTimeout := time.Duration(api.alertmanagerConfig.Global.ResolveTimeout)
api.mtx.RUnlock()
for _, alert := range alerts {
alert.UpdatedAt = now
// Ensure StartsAt is set.
if alert.StartsAt.IsZero() {
if alert.EndsAt.IsZero() {
alert.StartsAt = now
} else {
alert.StartsAt = alert.EndsAt
}
}
// If no end time is defined, set a timeout after which an alert
// is marked resolved if it is not updated.
if alert.EndsAt.IsZero() {
alert.Timeout = true
alert.EndsAt = now.Add(resolveTimeout)
}
if alert.EndsAt.After(time.Now()) {
api.m.Firing().Inc()
} else {
api.m.Resolved().Inc()
}
}
.....

在上述代码中可以看到,alert.EndsAt= time.Now() + 全局配置的ResolveTimeout(默认5分钟),也就是每个Alert默认给5分钟的过期时间,过期就恢复。

事件告警自定义过期时间

默认的5分钟对于prometheus metric告警是足够的,但如果想使用基于loki的日志告警(通常为了控制资源消耗,不会设置很大的评估范围),有时候偶发一个告警,然后很快就恢复了;或者想基于Event类型的事件告警,因为触发频率低,且不会持续发送,5分钟就比较容易误解。

那么在这里我们就可以基于Label着色和修改过期时间的方法自定义事件告警过期恢复时间。

实现如下:

这样就可以实现事件告警的自定义恢复时间,同时可以利用Alertmanager已有的其他功能。

本文地址:https://www.yitenyun.com/153.html

搜索文章

Tags

数据库 API FastAPI Calcite 电商系统 MySQL Web 应用 异步数据库 数据同步 ACK 双主架构 循环复制 JumpServer SSL 堡垒机 跳板机 HTTPS TIME_WAIT 运维 负载均衡 HexHub Docker JumpServer安装 堡垒机安装 Linux安装JumpServer Deepseek 宝塔面板 Linux宝塔 生命周期 esxi esxi6 root密码不对 无法登录 web无法登录 服务器 管理口 序列 核心机制 Windows Windows server net3.5 .NET 安装出错 HTTPS加密 服务器性能 查看硬件 Linux查看硬件 Linux查看CPU Linux查看内存 宝塔面板打不开 宝塔面板无法访问 开源 PostgreSQL 存储引擎 Windows宝塔 Mysql重置密码 Oracle 处理机制 无法访问宝塔面板 InnoDB 数据库锁 连接控制 机制 监控 Spring Redis 异步化 Serverless 无服务器 语言 Undo Log group by 索引 SQL 优化 万能公式 ES 协同 技术 缓存方案 缓存架构 缓存穿透 分页查询 高可用 动态查询 机器学习 GreatSQL 连接数 工具 响应模型 查询 日志文件 MIXED 3 R edis 线程 SVM Embedding scp Linux的scp怎么用 scp上传 scp下载 scp命令 锁机制 数据 主库 R2DBC 加密 场景 openHalo Netstat Linux 服务器 端口 Postgres OTel Iceberg 云原生 RocketMQ 长轮询 配置 Linux 安全 存储 AI 助手 ​Redis 推荐模型 SQLite-Web SQLite 数据库管理工具 Recursive 自定义序列化 共享锁 SQLark Hash 字段 向量数据库 大模型 PG DBA Ftp 电商 系统 OB 单机版 架构 启动故障 国产数据库 数据分类 MySQL 9.3 • 索引 • 数据库 修改DNS Centos7如何修改DNS 人工智能 推荐系统 流量 防火墙 黑客 磁盘架构 sftp 服务器 参数 redo log 重做日志 分库 分表 Rsync 同城 双活 信息化 智能运维 线上 库存 预扣 业务 不宕机 Python 向量库 Milvus MVCC 传统数据库 向量化 行业 趋势 mini-redis INCR指令 Canal 缓存 聚簇 非聚簇 高效统计 今天这篇文章就跟大家 PostGIS Redisson 锁芯 网络架构 网络配置 INSERT COMPACT Doris SeaTunnel prometheus Alert 数据备份 filelock 事务 Java 开发 语句 窗口 函数 ZODB Web 虚拟服务器 虚拟机 内存 RDB AOF MongoDB 数据结构 读写 引擎 性能 数据脱敏 加密算法 核心架构 订阅机制 Go 数据库迁移 容器 失效 IT运维 数据类型 B+Tree ID 字段 OAuth2 Token 频繁 Codis 分布式 集中式 模型 崖山 新版本 发件箱模式 自动重启 容器化 网络故障 Redis 8.0 SSH 聚簇索引 非聚簇索引 播客 微软 SQL Server AI功能 MCP 开放协议 DBMS 管理系统 QPS 高并发 SpringAI 数据页 JOIN 数据集成工具 Web 接口 原子性 Entity 速度 服务器中毒 网络 部署 工具链 Redka Pottery StarRocks 数据仓库 排行榜 排序 Testcloud 云端自动化 Caffeine CP 事务隔离 分布式架构 分布式锁​ 分页方案 排版 大表 业务场景 池化技术 连接池 悲观锁 乐观锁 主从复制 代理 dbt 数据转换工具 1 日志 优化器 EasyExcel MySQL8 单点故障 AIOPS LRU 分页 Order 意向锁 记录锁 仪表盘 sqlmock 事务同步 数据字典 兼容性 InfluxDB 对象 UUIDv7 主键 RAG HelixDB Ansible ReadView UUID ID Crash 代码 订单 单线程 IT 双引擎 LLM 字典 产业链 编程 Valkey Valkey8.0 恢复数据 Weaviate 分布式锁 Zookeeper MGR 分布式集群 千万级 线程安全 Pump List 类型 关系数据库 拦截器 动态代理 Next-Key 表空间 解锁 调优 慢SQL优化 快照读 当前读 视图 国产 用户 RR 互联网 GitHub Git 矢量存储 数据库类型 AI代理 算法 神经系统 查询规划 count(*) count(主键) 行数 技巧 CAS 并发控制 恢复机制 多线程 闪回