[Day 12] SRE - 定期演练计画

灾害模拟演练

今天跟各位分享一下,我们团队从零开始的定期演练流程。/images/emoticon/emoticon12.gif

事前准备

先开个google试算表,与团队成员共享。
开个「模拟事件List」分页,然後贴到群组请大家又空帮忙想,不管是大大小小的问题,只要可能会出现的,就列上去。


事件管理

在每次事件发生过後,我会把事件纪录到google试算表上。
通常事件会分两种:

  • 会再次出现
  • 不会再出现

把会再次出现的事件放到「模拟事件List」分页存放。


演练计画

  • 频率:每周五,或是每次on-call人员交班日
  • 人数:全员
  • 角色分配:
    • on-call人员两名
    • 事件主导者一名
    • 其他人作为观察者学习

流程

进入会议室 -> 主持人 -> 抽一名事件主导者 -> 抽一件事件 -> 开始演练 -> 演练完,讨论事件处理是否有无待改善的地方,或是哪边有不顺的地方需要厘清。

如何抽签

我推荐 https://wheelofnames.com/ 这个线上转轮盘抽签网,蛮好用的!我都用这个网站来让大家抽签,你们可以用自己想自订的抽签方式,都ok~


事件演练

从模拟事件List抽事件抽签,进行灾和模拟演练,流程若不顺利,或有地方怪怪的大家都会提醒或再检讨。


万事起头难

如何带着没经验的大家导入,我是找跟我一起on-call的同事跟他说我想要玩这个,然後跟他讲好处,再来就是找我下一轮的on-call同事说明,等到on-call交接到我这轮时就开始带着大家试玩,先从试玩的角度带着大家导入成为习惯。


持续演练!!

当团队都有持续在进行灾害演练时,一定会遇到「模拟事件List」都演练过了,那麽你们就可以再整理一下「模拟事件List」,然後再继续演练或者更换不同形式,带入不同角色让大家尝试。


<<:  [Day5] Create project、app

>>:  安装MLFlow

Day 28 : Git

1. 为什麽要学 Git,可以做什麽呢? 学习到现在大家一定累积很多的程序码或是各式的档案,如何去做...

从细针切片资料集 建模、预测肿瘤Sklearn Breast Tumor Prediction

本文重点:细针活体切片、乳房肿瘤、Sklearn模型、预测 完整代码+csv+model 在GitH...

安全密码储存开发方法

开发和部署安全服务和应用程序需要与许多内部和外部系统整合,例如:身份验证和云端储存。 许多软件开发都...

CDB(集中式) 是什麽? DDB(分散式)是什麽?

分散资料库(Distributed Database, DDB) VS 集中式资料库(Central...

心得

两年前也写过铁人赛,之後就觉得写文章很麻烦,写的内容也像操作手册,每次看别人的文章都觉得怎麽可以表达...