Prometheus告警Alertmanager部署

2024-06-19 13:52

本文主要是介绍Prometheus告警Alertmanager部署,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Prometheus告警Alertmanager部署

资源监控一般离不开预警,因为我们不可能每时每刻都盯着某个资源监控看,而且在实际的工作中当中我们搭建的解决方案涉及到的服务器是多台甚至数十台,所以更加不现实,因此资源告警是一个必不可少的一个模块。

Alertmanager告警原理

首先我们了解下alertmanager的基本的报警原理
Prometheus Server(监控规则-告警)–push->AlertManager(Router-Receiver)–notify->Email/企业微信…
通过Prometheus Server中配置的监控规则采集数据,当采集的数据经过一定的计算符合配置的告警规则时,就将把告警对应的内容信息推送给alertmanager模块,alertmanager模块根据配置规则将报警推送给邮件或者企业微信内容,具体可以参考官方文档:https://prometheus.io/docs/alerting/latest/configuration/

Alertmanager告警部署

alertmanager主要进行报警
1.首先我们进入Prometheus的官方网站的下载页面:https://prometheus.io/download/获取对应的版本。我们会看到如下界面。
在这里插入图片描述
然后这里我们选择altermanager-0.21.0.linux-amd64.tar.gz的版本进行点击进入下载,我们可以获取相应的安装包。
2.将下载下来的文件包通过xshell上传到跟我们prometheus同一台服务器上(也可以不同服务器),把程序包放到一个目录下面:

[root@localhost Stability]# pwd
/ftp/Stability
[root@localhost Stability]# ls |grep al
alertmanager-0.21.0.linux-amd64.tar.gz

3.通过以下命令对altermanager进行安装。

首先进行解压:
[root@localhost Stability]# tar -zxvf alertmanager-0.21.0.linux-amd64.tar.gz 
alertmanager-0.21.0.linux-amd64/
alertmanager-0.21.0.linux-amd64/alertmanager
alertmanager-0.21.0.linux-amd64/amtool
alertmanager-0.21.0.linux-amd64/NOTICE
alertmanager-0.21.0.linux-amd64/LICENSE
alertmanager-0.21.0.linux-amd64/alertmanager.yml
解压完成以后对文件进行重命名:
[root@localhost Stability]# mv alertmanager-0.21.0.linux-amd64 alertmanager

因为很多公司服务器所在的环境都属于公司内网中,服务器无法获取外网地址。如果在有外网的情况下是可以简化步骤1、步骤2中的步骤。只需要在在步骤1中获取下载的地址,然后进入CentOS操作系统下,使用如下命令即可获取安装包。

wget https://github.com/prometheus/alertmanager/releases/download/v0.21.0/alertmanager-0.21.0.linux-amd64.tar.gz

4.设置node_export后台启动,命令如下。

# 首先我们需要确定操作系统版本,CentOS7及以上可以成服务的模式
root@localhost:/usr/local/monitor/node_exporter# cat /etc/redhat-release 
CentOS release 6.9 (Final)
# 然后我们需要在prometheus.yml文件中添加如下信息
[root@localhost prometheus]# vi prometheus.yml
# Alertmanager configuration
alerting:alertmanagers:- static_configs:- targets: ['10.31.128.110:7093']
rule_files:- /ftp/Stability/prometheus/rules/*.rules
# 接下来我们就要在对应的规则文件路径下进行规则配置,假设我们配置一个服务器Down的报警,操作如下
[root@localhost rules]# pwd
/ftp/Stability/prometheus/rules
[root@localhost rules]# vi service_down.rules
groups:
- name: ServiceStatus #规则组名称   rules:- alert: ServiceStatusAlert  #单个规则的名称expr: up == 0   #匹配规则, up==0for: 10s        #持续时间labels:         #标签project: ServiceDownAlert    #自定义lablesannotations:            #告警正文summary: "Instance {{ $labels.instance }} down"description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minutes."
# 然后我们再配置alertmanager的告警规则
[root@localhost alertmanager]# vi alertmanager.yml
我们可以看到原先的配置文件如下:
global:resolve_timeout: 5mroute:group_by: ['alertname']group_wait: 10sgroup_interval: 10srepeat_interval: 1hreceiver: 'web.hook'
receivers:
- name: 'web.hook'webhook_configs:- url: 'http://127.0.0.1:5001/'
inhibit_rules:- source_match:severity: 'critical'target_match:severity: 'warning'
equal: ['alertname', 'dev', 'instance']
然后我们进行改造成如下配置信息
#全局配置,比如配置发件人
global:resolve_timeout: 5m    #处理超时时间,默认为5minsmtp_smarthost: 'mail.XXXXX.com:25'  # 邮箱smtp服务器代理smtp_from: 'XXXX@XXXX.com' # 发送邮箱名称smtp_auth_username: 'XXXX@XXXX.com' # 邮箱名称smtp_auth_password: 'XXXXXXX'              # 邮箱密码或授权码smtp_require_tls: false# 定义路由树信息,这个路由可以接收到所有的告警,还可以继续配置路由,比如project: zhidaoAPP(prometheus 告警规则中自定义的lable)发给谁,project: baoxian的发给谁
route:group_by: ['alertname'] # 报警分组依据group_wait: 10s         # 最初即第一次等待多久时间发送一组警报的通知group_interval: 10s     # 在发送新警报前的等待时间repeat_interval: 10s      # 发送重复警报的周期 对于email配置中,此项不可以设置过低,否则将会由于邮件发送太多频繁,被smtp服务器拒绝receiver: 'email'       # 发送警报的接收者的名称,以下receivers name的名称# 定义警报接收者信息
receivers:- name: 'email'  # 路由中对应的receiver名称email_configs: # 邮箱配置- to: 'XX@XXX.com'   # 接收警报的email配置#html: '{{ template "test.html" . }}'  # 设定邮箱的内容模板注意:我们改过prometheus.yml文件,所以需要重载

5.设置alertmanager后台启动,命令如下。

# 进入后台启动服务目录
[root@localhost Stability]# cd /usr/lib/systemd/system
# 拷贝一份现有的service服务脚本
[root@localhost system]# cp prometheus.service alertmanager.service
# 使用vim命令对文件记性编辑
[root@localhost system]# vim alertmanager.service
# 修改成以下内容后进行保存退出
[Unit]
Description=AlertManager
Documentation=https://prometheus.io/
After=network.target[Service]
ExecStart=/ftp/Stability/alertmanager/alertmanager --config.file=/ftp/Stability/alertmanager/alertmanager.yml --storage.path=/ftp/Stability/alertmanager/data
Restart=on-failure[Install]
WantedBy=multi-user.target 
# 保存退出后我们进行重新加载配置
[root@localhost system]# systemctl daemon-reload
# 然后启动alertmanager服务
[root@localhost system]# systemctl start alertmanager
# 查看进程是否在线
[root@localhost alertmanager]# systemctl status alertmanager
● alertmanager.service - AlertManagerLoaded: loaded (/usr/lib/systemd/system/alertmanager.service; disabled; vendor preset: disabled)Active: active (running) since Wed 2021-03-24 10:31:49 CST; 1s ago

6.启动完成以后,我们就可以用如下地址进行访问9093地址
在这里插入图片描述
这样我们一个报警就已经设置好了。

Alertmanager告警触发实例

因为我们目前的测试环境网段是无法进行邮件发送的,主要是跟网络隔离,所以这里使用windows环境的Alertmanager相关报进行邮件模拟发送。主要在prometheus上面简历了两个告警规则。

[root@localhost rules]# ls
cpu_high.rules  service_down.rules
规则1:当服务器10.31.131.20的CPU使用率超过0即报警
[root@localhost rules]# cat cpu_high.rules 
groups:
- name: ServiceStatus #规则组名称   rules:- alert: ServiceStatusAlert  #单个规则的名称expr:  sum(count(node_cpu_seconds_total{instance="10.31.131.20:7100", mode='system'}) by (cpu,instance)) by(instance) > 0  #匹配规则for: 10s        #持续时间labels:         #标签project: ServiceDownAlert    #自定义lablesannotations:            #告警正文summary: "Instance {{ $labels.instance }} cpu higer"description: "{{ $labels.instance }} of job {{ $labels.job }} cpu is very higer."
规则2:当相应的服务在线,即报警
[root@localhost rules]# cat service_down.rules 
groups:
- name: ServiceStatus #规则组名称   rules:- alert: ServiceStatusAlert  #单个规则的名称expr: up == 1   #匹配规则, up==0for: 10s        #持续时间labels:         #标签project: ServiceDownAlert    #自定义lablesannotations:            #告警正文summary: "Instance {{ $labels.instance }} down"description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minutes."

当触发报警以后,我们可以登录http://10.31.128.110:9090/classic/alerts的界面看到告警产生:
在这里插入图片描述
Inactive:告警仅仅生效,未发生任何事宜。
Pending:已触发阈值,但为满足告警持续时间
Firing:已触发阈值且满足告警持续时间。报警发送给接受者
接收的报警邮件如下:
在这里插入图片描述

这篇关于Prometheus告警Alertmanager部署的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1075207

相关文章

Web技术与Nginx网站环境部署教程

《Web技术与Nginx网站环境部署教程》:本文主要介绍Web技术与Nginx网站环境部署教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Web基础1.域名系统DNS2.Hosts文件3.DNS4.域名注册二.网页与html1.网页概述2.HTML概述3.

Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例

《Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例》本文介绍Nginx+Keepalived实现Web集群高可用负载均衡的部署与测试,涵盖架构设计、环境配置、健康检查、... 目录前言一、架构设计二、环境准备三、案例部署配置 前端 Keepalived配置 前端 Nginx

ubuntu如何部署Dify以及安装Docker? Dify安装部署指南

《ubuntu如何部署Dify以及安装Docker?Dify安装部署指南》Dify是一个开源的大模型应用开发平台,允许用户快速构建和部署基于大语言模型的应用,ubuntu如何部署Dify呢?详细请... Dify是个不错的开源LLM应用开发平台,提供从 Agent 构建到 AI workflow 编排、RA

ubuntu16.04如何部署dify? 在Linux上安装部署Dify的技巧

《ubuntu16.04如何部署dify?在Linux上安装部署Dify的技巧》随着云计算和容器技术的快速发展,Docker已经成为现代软件开发和部署的重要工具之一,Dify作为一款优秀的云原生应用... Dify 是一个基于 docker 的工作流管理工具,旨在简化机器学习和数据科学领域的多步骤工作流。它

Nginx部署React项目时重定向循环问题的解决方案

《Nginx部署React项目时重定向循环问题的解决方案》Nginx在处理React项目请求时出现重定向循环,通常是由于`try_files`配置错误或`root`路径配置不当导致的,本文给大家详细介... 目录问题原因1. try_files 配置错误2. root 路径错误解决方法1. 检查 try_f

Spring Boot项目部署命令java -jar的各种参数及作用详解

《SpringBoot项目部署命令java-jar的各种参数及作用详解》:本文主要介绍SpringBoot项目部署命令java-jar的各种参数及作用的相关资料,包括设置内存大小、垃圾回收... 目录前言一、基础命令结构二、常见的 Java 命令参数1. 设置内存大小2. 配置垃圾回收器3. 配置线程栈大小

tomcat多实例部署的项目实践

《tomcat多实例部署的项目实践》Tomcat多实例是指在一台设备上运行多个Tomcat服务,这些Tomcat相互独立,本文主要介绍了tomcat多实例部署的项目实践,具有一定的参考价值,感兴趣的可... 目录1.创建项目目录,测试文China编程件2js.创建实例的安装目录3.准备实例的配置文件4.编辑实例的

SpringBoot配置Ollama实现本地部署DeepSeek

《SpringBoot配置Ollama实现本地部署DeepSeek》本文主要介绍了在本地环境中使用Ollama配置DeepSeek模型,并在IntelliJIDEA中创建一个Sprin... 目录前言详细步骤一、本地配置DeepSeek二、SpringBoot项目调用本地DeepSeek前言随着人工智能技

通过Docker Compose部署MySQL的详细教程

《通过DockerCompose部署MySQL的详细教程》DockerCompose作为Docker官方的容器编排工具,为MySQL数据库部署带来了显著优势,下面小编就来为大家详细介绍一... 目录一、docker Compose 部署 mysql 的优势二、环境准备与基础配置2.1 项目目录结构2.2 基

CentOS 7部署主域名服务器 DNS的方法

《CentOS7部署主域名服务器DNS的方法》文章详细介绍了在CentOS7上部署主域名服务器DNS的步骤,包括安装BIND服务、配置DNS服务、添加域名区域、创建区域文件、配置反向解析、检查配置... 目录1. 安装 BIND 服务和工具2.  配置 BIND 服务3 . 添加你的域名区域配置4.创建区域