本業の方はどうにか先週で片付け、今週からは年末年始の休みに入りました。
今年の後半はとにかく忙しく、当サイトを稼働させているシステムで発生していたトラブルも解決せずにワークアラウンドで運用してきました。この休みの機会に一気に課題を可決すべく作業を行いました。
◆ESXiの更新
このシステムはESXi 3台で構成されていましたが、10月頃に1台が起動しなくなりました。
bootbankのデータ破損が原因と推測されますが、運悪く構成情報のバックアップも機能していなかったため再構築せざるを得ない状況に至りました。作業時間が取れないことと、システムのリプレース時期も近づいていたため、これらを同時に行う方が効率が良いとう判断から停止状態のまま二ヶ月くらい放置してきました。
この半年程でメモリ価格が低下しておりCPUも新しいモデルが出ていましたので、以下の様な仕様で製品選定を行いました。
- プロセッサ:AMD Ryzen 論理8コア以上
- メモリ:128GB搭載
- M/B:PCI-e x8 及び PCI-e x4 が同時に使用できること
最近は情報を集めていませんでしたので、販売店の店員に要求仕様を伝えて以下のパーツを選定しました。
仮想化基盤自体はVMware vSphere 6.7を使用していますので、このタイミングで最新版にアップデートしておきました。
VMwareの仮想基盤の運用を始めて15年超が経ちますが、やっとコンシューマ向けの部品のみで構成して1ホストに128GBのメモリを搭載できる時代になりました。これで1ホストで20台以上の仮想マシンを稼働できますので、仮想化ホストの台数を減らしても十分な性能が確保できる様になります。
◆vCenter Server Appianceの不調
先月頃からvCenter Server ApplianceのWeb Clientにアクセスすると、503エラーが発生するようになりました。原因と解決策を調査する時間が取れず、ESXiのHost Clientで操作して運用していました。
エラーメッセージを参考に調べたところ幾つかの可能性が出てきましたが、その中でディスク溢れが原因という事例がありました。情報元ではデータベースの領域が溢れた事例でしたが、当サイトの環境ではアーカイブディレクトリ(/storage/archive)が溢れていました。
中身は何かのバックアップだと思われましたので日付の古いファイルを削除したところ、問題が解消しました。
致命的なシステム的な問題は解消しましたが重大レベルの問題がまだ残っていますので、今週の内に順番に片付けるべく作業を続けています。