ML115 G5 RAID HDD Degraded 復旧
ML115 G5 で評価環境を構築し、約 1 年半の連続稼働を行ってきた。
それが、先日、急にリモートアクセスできなくなり、直接接続されたモニターで状況を確認。
ログを参照するも特に問題が発見できなかったので、サーバーを再起動した。
すると、起動時の HDD の検出が異常に時間がかかった。

さらに何とか検出するも次の RAID のアレイ検出でデグレ (Degraded) とのステータスが表示された。

物理ディスク (1T) 4 玉を搭載し、RAID1 で、2 つのドライブを構成していたのだが、何故か Arrays は、3 つ検出された。
この状態でも OS は、何とか起動してくれた。
ただ、起動時間はかなり遅く、ハードディスクのアクセスランプは、点灯したまま。
システムのギリギリ度合が体感できたほど。
OS 起動後、ML115 G5 オンボード RAID ドライバー インストーラー でインストールされた [NVIDIA コントロール パネル] -> [ストレージ] より [ストレージ設定の表示] 画面で、ストレージのステータスを確認した。
劣化 = Degraded ってことなのだろうが、いったい何が原因で、この障害が発生しているかは判断できず。

当然、この情報では、原因が分からないため、どのように障害をクリアして良いかも分からない。
選択枠の無い中で、原因追及のため、[SMART セルフテスト] を検出されているディスクに実行してみた。

セルフテストを実行する。

結果は、正常とのこと。

Windows の [ディスクの管理] 画面でも正常とのステータス。

よって、OS レベルでの障害の原因究明を諦め、BIOS レベルにフォーカスした。
まず、HDD の自動検出をよく確認すると、Sec の HDD が検出されていない。
Sec の HDD の検出で大きく遅延していた。

次に、MedhiaShield BIOS でステータスを確認すと何故か、アレイが 3 つ出現。
もちろん、RAID 1 構成時には、アレイは、2 つだった。

アレイごとのステータスを確認。Array 1。

Array 2。

Array 3。

3 つのアレイのポートを参照すると、Port 0.0、Port 1.0、Port 1.1 とあり、やはり Sec HDD(Port 0.1) に障害がありそうだ。
さらに、BIOS の [HDD Configuration] を参照すると、やはり、Serial-ATA 0 Secondary Channel: "Not
Detected" が確認され、HDD の物理障害だと判断した。

そこで、HDD を物理的に交換することとした。
この続きは、次回の記事に記述する。
コメント (0)
コメントの投稿