ディスク障害が 2 度も 2 度発生するという驚くべき同時発生!

つい最近、Hacker News(以下「HN」)で新しいローエンダーをご紹介したところでした。ところが突然、HNで二重ディスク障害が発生したというニュースが入りました。この二重ディスク障害により、HNは約8時間ダウンしました。
「二重ディスク障害」とは何でしょうか? HNの紹介記事で説明したように、 HNはM5 Hostingからレンタルした2台のサーバーで稼働しています。1台はプライマリサーバー、もう1台はスタンバイサーバーです。プライマリサーバーとスタンバイサーバーの両方に、ミラーリングされたSSDディスクが搭載されています。通常は1台のサーバーのみが稼働しており、HNの1日あたり約600万件のリクエストを処理しています。
7月8日に発生したと思われる事象は、プライマリサーバーの2台のディスクがダウンし、その数時間後にセカンダリサーバーの2台のディスクもダウンしたというものです。これは、ディスク障害が2倍になった、つまり2台で発生したようです。この投稿に添付されているTwitterのスクリーンショットには「2台目のディスク障害」と記載されているにもかかわらず、障害数は4台と見られています。
原因はSSDディスクの製造上の問題であるようです。HNモデレーターのdang氏とM5オーナーのmikiem氏が、SSDの故障は製造上の欠陥が原因である可能性があるというHNメンバーkabdib氏の示唆に回答しています。どうやらソフトウェアのバグが原因で、4台のSSDすべてが約4万時間の動作で自己破壊したようです。
以下に、各サーバーで2台のディスクが故障し、合計4台のディスクが故障した(二重のディスク障害)という詳細な説明があります。また、この詳細な説明は、シスコが2021年に発行したフィールド通知FN 70545にリンクしており、製造上の欠陥を「業界全体のファームウェアインデックスバグ」と説明しています。
冗長化された機器がさらなる安全性をもたらすことは明白です。以前は、少なくとも私にとっては、同じように製造された2つの機器が同時に故障する可能性があるということは、はるかに明白ではありませんでした。2組目の機器があれば、非常に高度なセキュリティが追加されるだろうと常に考えていました。
数年前、私のウェブサイトの一つに共有ホスティングを提供しているサーバーで、二重のディスク障害が発生しました。下の写真のようなサポートメールを受け取った時、一体どうしてこんなことが起こるのかと不思議に思いました。しかし、障害はInterserverで発生しました。そこで働くスタッフはとてもフレンドリーで、いつも親切で、非常に有能なので、Interserverはこれからも私のお気に入りのホスティング会社であり続けるでしょう。そこで、二重障害は偶然の一致だと思い込み、バックアップを取り、再インストールしました。
HNでの出来事とそこでの素晴らしい議論のおかげで、ハードウェアを二重化すれば十分なセキュリティだとか、ほぼ同時にディスクが二重に故障するなんてほぼあり得ないなどと考えるのは間違いだと分かりました。二重化しても、ディスクが二重に故障するなんてことは実際に起こり得るのです!これで、フォーマットも保存方法も異なる、別のバックアップを追加で取りたいという気持ちがさらに強くなりました。バックアップは大切です!今こそ、もう一度バックアップを取る絶好の機会かもしれませんね! :)
