[Day 7] SRE - 故障排除小技巧

故障排除小技巧

通常故障排除的流程如下图
https://ithelp.ithome.com.tw/upload/images/20210915/20115289JC1ZWwMdrU.png

常见的陷阱

  • 误解故障的现象,扭曲现象的含义,只会浪费时间追问题。
  • 简单来说就是没有按照SOP流程执行,漏掉某些步骤以至於无法安全且有效的测试出假设。
  • 过早将问题归咎於发生机率非常低的极端因素,ex: 资料有问题,就归咎於硬碟可能有灰尘。
  • 相关性」不等於「因果关系」。/images/emoticon/emoticon67.gif
    例如在丛集中的有两台Node意外重启且重启前cpu比起其他node还要偏高,可能由同一个原因造成的,例如电源供应不稳,但cpu偏高的现象并不是造成node重启的原因。

在监控越来越多,系统复杂度越来越高的情况下,发生A现象与B现象几乎同时发生的情况也可能越来越多,最终只是一种「巧合」,却常常让人们走进这种陷阱。
最近最有名的例子就是 大谷翔平 vs 长荣股票


缩小范围

问题分解 -> 资料处理

从系统的某一端开始逐步查找问题直到根源。

二分法 -> 大型系统

将系统分两部分,确认问题在哪部分,依此类推。


问题分类

当你遇到收到一份问题报告时,应该先把问题的范围做厘清,通常我们会分为

以客人角度

  • 不影响客人 -> 不急着线上修正
  • 影响部分客人 -> on-call人员上线 -> 先初步debug -> 与主管讨论是否直接修正
  • 影响全部客人 -> 全员上线

以公司角度

  • 不影响公司 -> on-call人员上线 -> 先初步debug -> 与主管讨论是否直接修正
  • 影响公司 -> 全员上线 -> 与时间赛跑

当然这个分类你可以依照不同团队,不同性质去做分类。


检查系统异动时间

找出大约第一次出现问题的时间,如果有做到gitops的话,可以比对git log,进行比对,是否有存在相关性,并把异动范围以及内容作为可能性之一。


今日小结

今天为大家分享故障排除的小技巧,依照流程一步一步来不要紧张,避开常见的陷阱,相信你会在面对问题时,更系统化的解决问题。/images/emoticon/emoticon12.gif


<<:  Day-14 那个数字不能说、但那个画面可以再现於新电视上的任天堂64

>>:  OpenStack Neutron 介绍 — OVS Provider Networks

第 13 天 坚持刷题持续进步( leetcode 016 )

https://leetcode.com/problems/3sum-closest/ 3Sum ...

DAY27: var、const、let 在作用域上有甚麽不一样?

在我们定义变量的时候都要加上像是 var、const、let等关键字, 那麽他们在作用域中又代表了甚...

常见攻击(Common Attacks)

高级持久威胁(APT) 多向量多态攻击 拒绝服务 缓冲区溢出 流动码 恶意软件(恶意软件) 偷渡式...

Day30|就这样持续下去吧!GO~

终於~让我熬到最後一天了! 虽然订阅的人数最後还是屈指可数 但看着镜子中的自己体态变好,心情真的也跟...

搞懂 P2P 技术 (1) - P2P x IPv4 x NAT

前言 之前工作上遇到需要将自家 IPCam 与 iOS/Android 手机做 P2P 串流影音,研...