本サイトを稼働させているシステムにおいて、大惨事寸前の事態が発生しました。
本サイトのWebサーバは仮想マシンとして実装して静的コンテンツを共通する構造をしていますが、仮想マシンを格納しているストレージとコンテンツを格納しているストレージにてディスク故障が発生していることに気が付きました。
共に冗長化構成を組んでいましたが、どちらもシステムとしての縮退稼働が担保されるギリギリの状態となっていました。
コンテンツ格納用ストレージ(RAID5 10TB) |
VPort Status Unit Size Type Phy Encl-Slot Model ----------------------------------------------------------------------------- p0 OK u0 1.82TB SATA 0 - TOSHIBA DT01ACA200 p1 DEVICE-ERROR u? 1.82TB SATA 1 - WDC WD20EARX-00PASB0 p2 OK u0 1.82TB SATA 2 - Hitachi HDS723020BL p4 DEVICE-ERROR u0 1.82TB SATA 4 - Hitachi HDS723020BL p5 OK u0 1.82TB SATA 5 - Hitachi HDS723020BL p6 OK u0 1.82TB SATA 6 - TOSHIBA MD03ACA200 p7 OK u0 1.82TB SATA 7 - WDC WD20EARS-00MVWB0 p9 OK u1 3.63TB SATA 9 - TOSHIBA MD04ACA400 p10 OK u1 3.63TB SATA 10 - TOSHIBA MD04ACA400 |
コンテンツ格納用ストレージは2010年頃に構築したアレイですが、スペアディスクも消費された上で、更に1本のディスクでデバイスエラーが発生しています。
流石に10年も稼働させていると幾度かのディスク故障を経験していますが、ここまで縮退状態に至ったことはありませんでした。
仮想マシン格納用ストレージ(RAID10 4TB) |
VPort Status Unit Size Type Phy Encl-Slot Model ----------------------------------------------------------------------------- p0 OK u0 1.82TB SATA 0 - TOSHIBA DT01ACA200 p1 OK u0 1.82TB SATA 1 - TOSHIBA DT01ACA200 p2 ECC-ERROR u0 1.82TB SATA 2 - TOSHIBA DT01ACA200 p3 ECC-ERROR u0 1.82TB SATA 3 - TOSHIBA DT01ACA200 |
このストレージは2015年頃に構築したアレイですが、ECCエラーが発生しており、アレイが崩壊するギリギリのラインに達していました。
ディスク破損が発生した場合はとにかく交換することになります。PCパーツは専門ショップで購入する方が安価に調達できますので、即交換ディスクを発注しました。
現在は2TBのディスクで構成していますが、これよりも容量の大きいディスクに交換すれば将来的に増量が可能となります。現在のディスク使用量は60%程度であることと、予算の都合から現在最も安価に購入できる2TBのモデルを購入しました。
コンテンツ格納用ストレージ(RAID5 10TB) |
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy --------------------------------------------------------------- u0 RAID-5 OK - - 256K 9313.17 RiW ON u1 RAID-1 OK - - - 3725.28 RiW ON u2 SPARE OK - - - 1863.01 - OFF u3 SPARE OK - - - 1863.01 - OFF VPort Status Unit Size Type Phy Encl-Slot Model --------------------------------------------------------------- p0 OK u0 1.82TB SATA 0 - TOSHIBA DT01ACA200 p1 OK u0 1.82TB SATA 1 - TOSHIBA DT01ACA200 p2 OK u0 1.82TB SATA 2 - Hitachi HDS723020BL p3 OK u0 1.82TB SATA 3 - TOSHIBA DT01ACA200 p4 OK u0 1.82TB SATA 4 - Hitachi HDS723020BL p5 OK u3 1.82TB SATA 5 - TOSHIBA DT01ACA200 p6 OK u0 1.82TB SATA 6 - TOSHIBA MD03ACA200 p7 OK u2 1.82TB SATA 7 - TOSHIBA DT01ACA200 p9 OK u1 3.63TB SATA 9 - TOSHIBA MD04ACA400 p10 OK u1 3.63TB SATA 10 - TOSHIBA MD04ACA400 |
コンテンツ用ストレージは新規ディスクとECCエラーの発生したディスクを混合してアレイを再構築しました。
今回はスペアディスクも増強して、2台入れていますので以前よりは可用性を強化した形になります。また、最も古い「WDC WD20EARS-00MVWB0」のディスクは全て交換することとしました。
仮想マシン格納用ストレージ(RAID10 4TB) |
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy ----------------------------------------------------------------- u0 RAID-10 OK - 256K - 3725.27 RiW ON VPort Status Unit Size Type Phy Encl-Slot Model ----------------------------------------------------------------- p0 OK u0 1.82TB SATA 0 - TOSHIBA DT01ACA200 p1 OK u0 1.82TB SATA 1 - Hitachi HDS723020BL p2 OK u0 1.82TB SATA 2 - TOSHIBA DT01ACA200 p3 OK u0 1.82TB SATA 3 - TOSHIBA DT01ACA200 |
仮想マシン用ストレージはディスクの寿命を分散させるために構成に変更しました。コンテンツ用ストレージとして使用していた「Hitachi HDS723020BL」をあえて一本混ぜ、4本中3本はロットも寿命も異なるディスクを混ぜる形に変更しました。
合わせて監視システムでもアレイの状態を監視することが出来るように設定を追加しました。
幸いにして故障の修理段階から監視システムの動作試験もできましたので、次の故障発生時にはここまでギリギリの状態になる前に気が付けると思われます。