[Day 11] SRE - 事後检讨,拜托拜托让我吸个经验值

从历史中学习

我们最讨厌事件历史重演QQ
在每次遇到问题後,我们全员都会一起开个检讨会议,当中会提到问题发生的根源,是否会再发生?是否能自动化?是否有介面 or API可以操作解决?
如果会再发生,且能自动化尚未自动化的话,我们就会马上进行开发,以降低on-call人员的压力,反之如果无法自动化,就要看是否有介面或者有提供API之类的?可以让on-call人员操作,并列在定期演练计画事件内,此事件就会成为历史事件,以後就可以透过演练历史事件,去预防去训练大家,让大家从历史中学习。

避免指责,提拱建设性意见

对事不对人,不指责他人,对於问题提出好的解决办法。


协同合作与知识共享

及时沟通合作,团队沟通,团队成长!


建立事後检讨文化

当你的团队没有建立过事後检讨的文化时,其实可以自己找几个人先模拟一次,再度找几个人再度模拟一次,最後找大家一起参与一次,慢慢的带领大家有了习惯这种文化,告诉他们检讨的好处,让他们也想自主的驱动是最棒的。


公开奖励做正确事的人

主管或团队成员会在公众场合奖励在危机事件处理得恰当的人,对於团队的氛围有很大的加分作用。


收集关於事後检讨有效性的回馈

在事後检讨後,请每位成员提供对於此检讨後的回馈与意见,不见得每个人都有会有有效性的回馈,而愿意回馈的就是一种对於检讨文化的一种鼓励,甚至也可能拿到更多更棒的回馈内容唷。


持续改进

任何东西是随着时间不断地变化,唯有持续的改进与学习,才能成就我们的系统提升可靠性。


今日小结

每个系统或多或少都会遇到你没想过的问题,当解决问题後,就要找大家一起讨论此问题,让它成为「我们的经验值」,而个人的经验值。如果对於每次的问题只有某个人知道如何解决,那也只有那个人得到了经验值,相信你不会想要「明明是组队打怪,而经验值分配却是个人的」这种结果。/images/emoticon/emoticon09.gif


<<:  Day4 JS-Object、Prototype与Class(ES6)

>>:  Day 4 - 介绍Laravel Eloquent ORM

007-小工具

今天分享一些实用的网站,应该大部分都知道,但一样是做个纪录。 1.https://www.nngro...

【Bootstrap 5 客制化教学 - 6】BS5 utilities 客制化,让他变得跟 TailwindCSS 一样强!

其实 BS5 utilities 原始码打开有让我有惊艳的感觉,整体有重写过,所涵盖的功能也蛮适用...

[Day07]程序菜鸟自学C++资料结构演算法 – 链结串列实作应用

前言:讲解完链结串列的概念後,紧接着就要来进行实作了。 跟做阵列的时候一样,先创建一个新的专案,就可...

Day6 梯度提升树(Gradient Boosting Decision Tree)

梯度提升树是什麽? 讲人话就是将随机森林的概念更进一步应用,策略性地逐步建构多棵决策树模型,间接让重...

Day26 - 轻前端 Component - jQuery UI Selectmenu

这个范例把上个范例的 jQuery UI Selectmenu 放到 vue component 内...