【Day2】谈谈何谓「单点故障」?

什麽是「单点故障」?
单点故障的英文是 (single point of failure,简称 SPOF),指的是系统上的某一个物理节点故障,而导致整个系统无法运作的现象。
通常这个名称,我们比较常把它用在系统或网路架构上。
例如下图一,若架构设计上只有一台SAN Switch,则此时「A点」便存在SPOF风险。
当它故障时,整个VM系统就会无法运作。
图一、
https://ithelp.ithome.com.tw/upload/images/20210918/20010931J7voMCfUW6.png
因此设计上为了满足高可用(High Availability),我们会把系统架构设计为下图:
图二、
https://ithelp.ithome.com.tw/upload/images/20210918/20010931mjv28b2QUa.png
这就是为什麽Infra需要理解单点故障,一旦发生SPOF,轻则只是短暂影响,重则就是一场灾难。
通常公司越重要(critical)的系统,我们越希望能具备高可用度 High Availability
经过几年的Infra管理及亲身体验,个人认为「单点故障」再延伸後可以包含以下几点:
1.硬体
硬体的SPOF就像图一的例子,当架构设计不良或经费考量只能尽量满足现况时就会存在风险,即使设计如图二,仍然存在储存故障的风险。因此高可用=高成本,实际上大部分企业只能尽量满足,而无法全面满足SPOF。
2.网路
网路的架构和硬体雷同,我们必须考量专线断线、防火墙故障、交换器故障的可能性。
3.电力
电力包含了电源电路、UPS不断电系统、硬体是否具备冗余电源系统 (Redundant Power System)。
4.空调
空调通常是机房设备冷却的重要设施,也需要有备援,大企业通常会使用两台空调交换运作。机房一旦温度升高就会造成设备的停摆或损坏,个人就曾经遇过两台一起故障,且机房八成的设备因过热一起亮橘灯
5.人
人的管理其实是一个企业忽略的隐忧,人员按错开关导致SAN Switch关机以及机电人员(非MIS)误将机房总开关OFF(UPS 开始倒数计时),都是个人遇过的切身之痛。

以上就是这些年【Infra】管理一些心得,我发现机房、系统架构设计的再好,都不能满足SPOF风险(除非该企业有双活资料中心),

【人员的管理才是单点故障最大风险】


<<:  Day 02 Introduction to embedded system

>>:  Day2React安装方式简介

JavaScript - 做个录音录影功能ㄅ

大家好!今天这篇主要是实作浏览器上的录音与录影功能,这边先列出几个会做到的目标 显示视讯画面与声音 ...

Day 8 - 目前(传统)的机器学习三步骤(3)-训练

第三步 Training : 训练并验证,找出最佳结果 挑选[学习演算法] 什麽是演算法(Algor...

RxJS 数学/聚合类型 Operators (1) - min / max / count / reduce

今天要介绍「数学/聚合类型」的 operators,这些 operators 会把来源 Observ...

Day 17 Server Message Block (SMB)相关安全

因为电脑坏掉了,所以暂时没有截图 QQ Server Message Block (SMB) SMB...

Lisp 语言和你 SAY HELLO!!

第二十五天 各位点进来的朋友,你们好阿 小的不才只能做这个系列的文章,但还是希望分享给点进来的朋友,...