当サイトを動作させているシステムは自宅内の仮想化基盤上に構築したWebサーバになります。
仮想化基盤はVMwareの製品を使用しており、Hypervisor 3台、iSCSIの共有ストレージ1台で構成されています。このHypervisorの内の1台が突然停止して復旧しない事態に陥りました。
◆事象
問題が発生したHypervisorはIntel Atom C2750プロセッサをオンボード搭載した、組み込み向けシステムボード(ASRock C2750D4)を使用していました。
システムが突然停止したため、出先からIPMI経由でシステムにアクセスして再起動を行ったところ一度は上がってきたのですが、再び停止してしまい、再度再起動を試みたところ今度は起動もしなくなりました。結果として、IPMIは生きていますが、通電はしてもシステム本体が死んでいるという状態に陥りました。
◆原因
大変不可解な死に方をしたため、調べてみたところ原因と思しき事象が報告されていました。
Atom C2000ファミリに18カ月前後の動作で起動できなくなるエラッタ
Intel Atomプロセッサのクロック問題
CPU(Atom C2000系)のバグにより、稼働開始から18ヶ月を超えると回路の短絡が発生しやすくなり、突然死するという内容です。
この問題は2017年2月に公表され、4月には修正版のC0ステッピングの製品に切り替えられた様です。
Intel Releases C0 Stepping Atom C2000 Processors To Fix Problems
今回故障したシステムボードは2015年12月に購入した製品であるため、問題を含む製品となります。また、本格稼働は2016年1月からとなることから約20ヶ月で故障したことになります。
故障してしまったものは仕方がないので、とりあえずHypervisor 2台体制で運用できるように仮想マシンの数を減らして運用して急場を凌ぐことにしました。