[Day 6] SRE - 起身对抗活在警报中的恶魔

警报疲乏

相信大家都听过「放羊的孩子」的伊索寓言故事。

今天我们探讨的问题是当团队中的警报器常常发生不是「真正的警报」而是「假警报」时,会导致大家对於警报的警觉性慢慢地降低!常常发生这种现象对於整个团队的危机处理能力会大幅打折,会造成团队的成员身心疲劳。

而最贴近生活的例子就是当你所在的大楼常常发生,消防警报而每次管理员都说是误触,甚至没人在意的话,当真正的火灾发生时,大楼内的人都以为是「假警报」,而错失黄金避难的时间,以最近的彰化防疫旅馆火灾事件来说看起来就是,旅馆老板甚至员工已经产生警报疲乏的现象,最後导致遗憾。

「假警报」无可避免的一定会发生,大家也会对於警报的信任度慢慢产生疲乏感,但发生後的处理流程,也一定要进行除错把主因找出来并讨论出方法让它不再发生,避免一再发生进而增加警报的准确性,这能让团队内的大家从对警报的疲乏慢慢恢复。

文章来源 : https://fractio.nl/2014/08/26/cardiac-alarms-and-ops/

在此文章提到

If alarms are more often false than true, a culture emerges on the unit in that staff may delay response to alarms, especially when staff are engaged in other patient care activities, and more important critical alarms may be missed.

在on-call的情况下,作者认为有两个主因会造成警报疲劳:

  • 警报的准确性
  • 收到的警报数量

https://ithelp.ithome.com.tw/upload/images/20210914/20115289D6hEgRADkG.png
对於警报的信心指数,随着「假警报」的发生与去除,要维持平衡,「假警报」的发生会使对於警报的信心指数下降,反之「假警报」的根源去除会使对於警报的信心指数提升。

最後文章提到
如何改善警报疲乏:

  • 建立一个多元的警报团队(dev, ops, 管理人员)。
  • 从您的监控系统中取得和分析警报数据。
  • 移除无法操作或可能自动恢复的警报。
  • 标准化预设警报设定,允许回应警报的人员进行弹性异动。

以上的建议,在对於团队警报疲乏都有一定的帮助,如果大大们也有在团队内发生这种现象,建议大家试着建议去改善。


<<:  [13th-铁人赛]Day 8:Modern CSS 超详细新手攻略 - 伪元素 Pseudo Element

>>:  Day12- pandas(7)DataFrame遗失值处理

【领域展开 22 式】 初次认识 Jetpack 与启用

左看右看上看下看,到处都在说 Jetpack 最近阅读蛮多 WordPress 相关的教学文,大多数...

Day 20 实作表单 (3)

前言 今天要来接续表单的制作,不同於前两天的是,今天的主题比较明确,我们要写各式各样的 dashbo...

Gin 表单

Golang Gin 表单 今天真的有点爆炸了,几乎没时间补文章,只能抽空拿点时间来写,如果在gin...

D1 - start

各位夥伴这个热血的30天挑战又来了 不免俗的第一天开赛就是来分享一下这心路历程XDD 8月本来想说今...

Day 27 - ios 开发实作(今天还要继续吃吗APP-1、Swift UI Passing data 不同页面传值)

首先我们介绍一下这个APP的功能。 介绍 这个APP主要会有的功能如下: 计算今天吃的东西类型 计算...