Day 26. Zabbix 实际报警案例分享 - 机器服务被关机

今天跟大家分享关机与服务中断的警报,如果有仔细观察 Problem: /etc/passwd has been changed 指普通 information 等级。但是服务断线 or 主机断线警报会升级警告等级了。

主要介绍以下警报:Zabbix agent is not available (for 3m)、Zabbix server has been restarted (uptime < 10m)、MySQL: Service is down、HTTP service is down。

首先是 Zabbix agent is not available (for 3m):

发生这个原因通常就字面上就是 Agent 已经过三分钟没有启动了,不过就我们在使用 Agent 的经验是很稳定的,不会没事就挂了,所以这个警报一响就意味着主机已经关机了,这样就要开始查原因了。另外一件事就是其实算是人为失误,在装 Agent 的时候没有设定开机启动,也没有自动启动 (PS. 其实机器一多最好还是设上开机启动)。

注意喔! 如果没有确认 Agent 已连线就想 close 掉,没有解决还是会持续跳出喔,除非把该项取消监控。

再来是 Zabbix server has been restarted (uptime < 10m):

这个比上一个还恐怖,原因是这样的,我们的主机目前都虚拟化了,所以只要是跳电连 Zabbix Server 都会随着关机,复电的时候有设定复电启动,所以第一个通知就会是 has been restarted 了,当我们收到通知时就会知道刚机房断电了 QQ ,目前还在努力找 UPS 资源中~

最近两次跳警报的原因是 2021/05/13 全台分组限电,所以就立马提前关机。另一次是学校会定期针对高压电检修,也是提前关机。

最後 MySQL: Service is down、HTTP service is down :

这就是针对服务监控了,目前遇到的原因就是开机忘了设定开机启动,或是维运人员调整参数需要重新启动 XD。

内容如有介绍不周的地方,再麻烦大家提点,感激不尽。
同步发表 行云部落格 再麻烦大家多多指教 谢谢
行云者研发基地官网 粉丝专页


<<:  Day26 Bootstrap建立网页

>>:  Log Agent - Fluent Bit 安装与常见架构模式

[Day 3] 你真了解资料吗?试试看视觉化分析吧!

你真了解资料吗?试试看视觉化分析吧! 今日学习目标 探索式分析 (EDA) 聊聊何谓 EDA,为何要...

#5 JavaScript in Browser

今天写一些浏览器跟 DOM 的东西。 DOM 全名是 Document Object Model,是...

Day 14 Flask 传入参数

在网页中不可能只是按照设定好的 URL 去取得网页页面,在许多时候都需要带入不同的参数去取得不同的资...

如何开展你的分析?

今天要和来大家说明一下分析的基本框架要如何展开。这边提供的是一套思考的流程,提醒大家展开分析的过程中...

Day4 Variable

Background 如同前一章节的import一样,在Go的世界当中是不允许浪费任何资源的,因此只...