首页 > 电脑故障

基于Prometheus和Grafana的监控平台之运维告警

番茄系统家园 · 2022-05-29 02:22:18

本文转载自微信公众号「JAVA日知录」，作者单一色调。转载本文请联系JAVA日知录公众号。

通过前面的文章我们搭建好了监控环境并且监控了服务器、数据库、应用，运维人员可以实时了解当前被监控对象的运行情况，但是他们不可能通过坐在电脑边上盯着DashBoard来发现服务器或应用异常。

这就要求我们需要一个告警功能，当服务器或应用指标异常时发送告警，通过邮件或者短信的形式告诉运维人员及时处理。

今天我们就来聊聊基于Prometheus和Grafana的监控平台的异常告警功能。

告警方式Grafana

新版本的Grafana已经提供了告警配置，直接在dashboard监控panel中设置告警即可，但是我用过后发现其实并不灵活，不支持变量，而且好多下载的图表无法使用告警，所以我们不选择使用Grafana告警，而使用Alertmanager。

Alertmanager

相比于Grafana的图形化界面，Alertmanager需要依靠配置文件实现，配置稍显繁琐，但是胜在功能强大灵活。接下来我们就一步一步实现告警通知。

告警类型

Alertmanager告警主要使用以下两种：

「这次主要使用邮件的方式进行告警。」

实现步骤

从GitHub上下载最新版本的Alertmanager,将其上传解压到服务器上。tar -zxvfalertmanager-0.19.0.linux-amd64.tar.gz

修改完成后可以使用 ./amtool check-config alertmanager.yml校验文件是否正确。

校验正确后启动alertmanager。nohup ./alertmanager&。(第一次启动可以不使用nohup静默启动，方便后面查看日志)

我们只定义了一个路由，那就意味着所有由Prometheus产生的告警在发送到Alertmanager之后都会通过名为email的receiver接收。实际上，对于不同级别的告警，会有不同的处理方式，因此在route中，我们还可以定义更多的子Route。具体配置规则大家可以去百度进一步了解。

配置Prometheus

在rules文件夹下建立告警规则文件 service_down.yml,当服务器下线时发送邮件。

「配置详解」

alert：告警规则的名称。

expr：基于PromQL表达式告警触发条件，用于计算是否有时间序列满足该条件。

for：评估等待时间，可选参数。用于表示只有当触发条件持续一段时间后才发送告警。在等待期间新产生告警的状态为PENDING，等待期后为FIRING。

labels：自定义标签，允许用户指定要附加到告警上的一组附加标签。

annotations：用于指定一组附加信息，比如用于描述告警详细信息的文字等，annotations的内容在告警产生时会一同作为参数发送到Alertmanager。

配置完成后重启Prometheus，访问Prometheus查看告警配置。

关闭node_exporter,过2分钟就可以收到告警邮件啦，截图如下：Alertmanager的告警内容支持使用模板配置，可以使用好看的模板进行渲染，感兴趣的可以试试!

The More

node exporter的一些计算语句

免责声明：凡标注转载/编译字样内容并非本站原创，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如果你觉得本文好，欢迎推荐给朋友阅读；本文链接： https://m.nndssk.com/dngz/332895a1FLNs.html。