本サイトを稼働させているシステムにおいて、大惨事寸前の事態が発生しました。

本サイトのWebサーバは仮想マシンとして実装して静的コンテンツを共通する構造をしていますが、仮想マシンを格納しているストレージとコンテンツを格納しているストレージにてディスク故障が発生していることに気が付きました。

共に冗長化構成を組んでいましたが、どちらもシステムとしての縮退稼働が担保されるギリギリの状態となっていました。

 

コンテンツ格納用ストレージ(RAID5 10TB)
VPort Status     Unit Size   Type  Phy Encl-Slot Model
-----------------------------------------------------------------------------
p0  OK       u0  1.82TB SATA  0  -      TOSHIBA DT01ACA200 
p1  DEVICE-ERROR  u?  1.82TB SATA  1  -      WDC WD20EARX-00PASB0
p2  OK       u0  1.82TB SATA  2  -      Hitachi HDS723020BL 
p4  DEVICE-ERROR  u0  1.82TB SATA  4  -      Hitachi HDS723020BL
p5  OK       u0  1.82TB SATA  5  -      Hitachi HDS723020BL 
p6  OK       u0  1.82TB SATA  6  -      TOSHIBA MD03ACA200 
p7  OK       u0  1.82TB SATA  7  -      WDC WD20EARS-00MVWB0
p9  OK       u1  3.63TB SATA  9  -      TOSHIBA MD04ACA400 
p10  OK       u1  3.63TB SATA  10 -      TOSHIBA MD04ACA400

 

コンテンツ格納用ストレージは2010年頃に構築したアレイですが、スペアディスクも消費された上で、更に1本のディスクでデバイスエラーが発生しています。

流石に10年も稼働させていると幾度かのディスク故障を経験していますが、ここまで縮退状態に至ったことはありませんでした。

 

仮想マシン格納用ストレージ(RAID10 4TB)
VPort Status     Unit Size    Type  Phy Encl-Slot Model
-----------------------------------------------------------------------------
p0   OK            u0   1.82TB  SATA  0   -     TOSHIBA DT01ACA200  
p1   OK            u0   1.82TB  SATA  1   -     TOSHIBA DT01ACA200  
p2   ECC-ERROR     u0   1.82TB  SATA  2   -     TOSHIBA DT01ACA200 
p3   ECC-ERROR     u0   1.82TB  SATA  3   -     TOSHIBA DT01ACA200

 

このストレージは2015年頃に構築したアレイですが、ECCエラーが発生しており、アレイが崩壊するギリギリのラインに達していました。

ディスク破損が発生した場合はとにかく交換することになります。PCパーツは専門ショップで購入する方が安価に調達できますので、即交換ディスクを発注しました。

現在は2TBのディスクで構成していますが、これよりも容量の大きいディスクに交換すれば将来的に増量が可能となります。現在のディスク使用量は60%程度であることと、予算の都合から現在最も安価に購入できる2TBのモデルを購入しました。

 

コンテンツ格納用ストレージ(RAID5 10TB)
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
---------------------------------------------------------------
u0  RAID-5  OK   -   -    256K  9313.17 RiW  ON 
u1  RAID-1  OK   -   -    -   3725.28 RiW  ON 
u2  SPARE   OK   -   -    -   1863.01 -   OFF 
u3  SPARE   OK   -   -    -   1863.01 -   OFF

VPort Status Unit Size  Type Phy Encl-Slot Model
---------------------------------------------------------------
p0   OK   u0  1.82TB SATA 0  -     TOSHIBA DT01ACA200 
p1   OK   u0  1.82TB SATA 1  -     TOSHIBA DT01ACA200 
p2   OK   u0  1.82TB SATA 2  -     Hitachi HDS723020BL 
p3   OK   u0  1.82TB SATA 3  -     TOSHIBA DT01ACA200 
p4   OK   u0  1.82TB SATA 4  -     Hitachi HDS723020BL 
p5   OK   u3  1.82TB SATA 5  -     TOSHIBA DT01ACA200 
p6   OK   u0  1.82TB SATA 6  -     TOSHIBA MD03ACA200 
p7   OK   u2  1.82TB SATA 7  -     TOSHIBA DT01ACA200 
p9   OK   u1  3.63TB SATA 9  -     TOSHIBA MD04ACA400 
p10  OK   u1  3.63TB SATA 10 -     TOSHIBA MD04ACA400

 

コンテンツ用ストレージは新規ディスクとECCエラーの発生したディスクを混合してアレイを再構築しました。

今回はスペアディスクも増強して、2台入れていますので以前よりは可用性を強化した形になります。また、最も古い「WDC WD20EARS-00MVWB0」のディスクは全て交換することとしました。

 

仮想マシン格納用ストレージ(RAID10 4TB)
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
-----------------------------------------------------------------
u0  RAID-10 OK   -    256K  -    3725.27 RiW  ON

VPort Status Unit Size   Type Phy Encl-Slot Model
-----------------------------------------------------------------
p0  OK   u0  1.82TB SATA 0  -      TOSHIBA DT01ACA200 
p1  OK   u0  1.82TB SATA 1  -      Hitachi HDS723020BL 
p2  OK   u0  1.82TB SATA 2  -      TOSHIBA DT01ACA200 
p3  OK   u0  1.82TB SATA 3  -      TOSHIBA DT01ACA200

 

仮想マシン用ストレージはディスクの寿命を分散させるために構成に変更しました。コンテンツ用ストレージとして使用していた「Hitachi HDS723020BL」をあえて一本混ぜ、4本中3本はロットも寿命も異なるディスクを混ぜる形に変更しました。

 

合わせて監視システムでもアレイの状態を監視することが出来るように設定を追加しました。

幸いにして故障の修理段階から監視システムの動作試験もできましたので、次の故障発生時にはここまでギリギリの状態になる前に気が付けると思われます。