[Day 10] SRE - ON-CALL

ON-CALL

今天为大家介绍ON-CALL常见的须注意之事项 /images/emoticon/emoticon08.gif

建立心态

我为人人,人人为我,今天你帮大家解决问题,大家之後也会在你不便之时帮助你,以我们team的角度解决问题就对了!
需要掌握既有计画时程与环境异动相关讯息。


人数均衡

每次有两个成员进行on-call,一次轮一周,最好能每个月以上轮一次。
所以理想是每个on-call团队至少要有8位成员,才不会让人有天天都在on-call的地狱感,生活的品质也会大受影响。


品质平衡

当某个服务,在每次的轮值都会出现警报时,需要向上反应,要求追查并是否能根除,避免造成维运附载载过大。


奖励制度

适当的奖励,来增加ON-CALL奖励,以减低大家对on-call的排斥感。


安全感

适当的进行一些演练,可以降低成员对於线上正式环境在操作的不安全感,带给他们多一些信心,而那些演练会帮助成员,在事情发生时,带入直觉并且快速行动。


避免负荷过载

  • 程序异动
  • 环境调整

以上两种都是常常造成on-call人员的压力山大的原因,当计画中的异动很多时,一定要通知当周on-call人员一起讨论可能遇到的状况,以及如何牌以及如和排除。


避免松懈

心里OS: 系统好久没发出警报,是不是可能有些异常?
如果常常在没警报的日子里,就必须要保持戒心,不能想着每天平安,更要把一些事件提前做演练,才不会平安的日子过久了,突然来个海啸,把整个系统杀个措手不及。


交接

交接是个重要的流程,将上轮遇到或可能遇到的事情交接给下轮的on-call人员,交接过程中我们要求on-call工程师要测试on-call可能会用到的工具,以确保on-call过程中万一要用到时不会坏掉。


<<:  【Day03】Git 版本控制 - 什麽是 Git

>>:  Day3-TypeScript(TS)安装开发环境

[13th][Day23] http response header(下)

接续昨天 response headers 的部分 一样是看 Julia Evans 大大的可爱的图...

[Day22] CH11:刘姥姥逛物件导向的世界——封装性、继承性

今天要来介绍物件导向的三大特性:封装性、继承性、多型性。 封装性(Encapsulation) 可以...

Day 28 - Spring Security (五) JwtAuthenticationProvider

实作 新增依赖 <!-- JWT --> <dependency> <...

Day28,使用Dex、OIDC为你的Kubernetes再上一道锁 (1/2)

正文 过去我们在使用Kubernetes的权限,往往可能就是用admin.conf,或是servic...

html 输入框

今天来写一个输入框,以下是html内的程序码 <input type="text&q...