Eine Serverfarm

RAID Forcen – Risiken

Wenn Sie auf diesen Blog-Beitrag gestoßen sind, dann wird wohl eines der folgenden Szenarien die Ursache sein:

1) Ihr RAID ist offline und soll geforced werden, weil das Rebuild nicht funktioniert

2) Das RAID wurde geforced – das gewünschte Ergebnis blieb allerdings aus

3) Sie wollen sich über die Risiken des RAID-Forcens informieren

Letzteres ist löblich, Ersteres nicht unwahrscheinlich, mittleres oft das Resultat.

Rebuild oder Forcen?

Gerade wenn ein Rebuild nicht erfolgreich durchläuft oder ein Rebuild nicht möglich ist, wird oft auf die Möglichkeit des RAID-Forcens zurückgegriffen. Dies geschieht in der Regel dann, wenn nicht mehr genug Festplatten in dem RAID Array aktiv sind – also wenn beispielsweise bei einem RAID 5 mindestens zwei Festplatten offline sind, aber diese im RAID Controller noch angezeigt werden. In dem Fall kann man die Festplatte „online forcen“.

Bevor man jedoch das RAID forct sollte man sich der Risiken bewusst sein, denn es gibt mehrere Gründe dafür, dass ein RAID offline ist. Insbesondere bei RAID 5 bzw. RAID 6 stellt sich die Frage:

– Wann ist der erste Datenträger ausgefallen? Läuft das System vielleicht schon länger degraded?

– Kann genau bestimmt werden, welche Datenträger zum Ausfall des RAIDs geführt haben?

Vorab: nur weil dort eine oder mehrere Kontrollleuchten blinken, heißt dies noch lange nicht, dass diese Datenträger die einzigen sind, die ausgefallen sind. Umgekehrt sollte man auch nicht zu dem Schluss kommen, nur weil alle Kontrollleuchten grün sind, dass keine Festplatte defekt ist – warum sollte sonst das RAID offline sein? Spätestens wenn das RAID „plötzlich“ offline ist, sollten alle Alarmglocken klingeln, denn nur in sehr seltenen Fällen kommt es vor, dass gleichzeitig mehrere Festplatten ausfallen (ausgenommen bei Erschütterungen oder teilweise bei Stromschwankungen).

In der Regel sollte bei einem Festplattenausfall ein Warnhinweis erfolgen – z.B. eine Email oder SMS an den Administrator. Es gibt jedoch etliche Fälle, wo dies nicht geschieht. Die Ursachen hierbei können vielfältig sein. Zum Einen kann eine Fehlfunktion des RAID Controllers vorliegen. Zum Anderen haben wir die menschliche Komponente. Teilweise wird vergessen, diese Funktion zu aktivieren. Unter Umständen gab es auch Mitarbeiterwechsel und der Warnhinweis geht noch an alte Kontaktadressen, welche nicht mehr existieren, möglicherweise gab es in Folge bei der Pflege Fehleingaben und und und…

Die Gefahr des RAID-Forcens

Aus dem obigen Szenario lassen sich Folgen des RAID-Forcens erahnen. Unter Umständen wird eine Festplatte wieder in den RAID Verbund hinzugenommen, die schon länger ausgefallen war und somit veraltete Daten beinhaltet. Durch das Forcen der „failed first“ werden diese veralteten Dateninhalte ins Volume quasi „hineingerechnet“. Die Folge ist, dass alle Datenträger nach Abschluss des Forcens fehlerhafte Informationen beinhalten. Gleiches gilt, wenn eine falsche Festplatte ersetzt wird. Fatale Auswirkungen hat es auch, wenn defekte Festplatten durch neue ersetzt werden und statt eines Rebuilds das RAID geforct wird. Die Auswirkungen sind meist fatal: man hat zwar ein intaktes RAID, aber mit Pech größtenteils korrupte Daten. Der finale Todesstoß erfolgt meist dann, wenn im Anschluss noch ein chkdsk oder fsck (abhängig vom Betriebssystem) durchgeführt wird.

Lassen sich nach einem fehlerhaften Forcen trotzdem noch Daten wiederherstellen?

Die Frage nach der Chance einer Datenwiederherstellung nach einem fehlerhaften Forcen lässt sich nicht pauschal mit ja oder nein beantworten. Ist ein Dateisystemcheck durchgelaufen, vereinfacht dies die Situation mit Sicherheit nicht und kann unter Umständen dazu führen, dass das Ergebnis nur marginal oder teilweise gar nicht verbessert werden kann. Die entnommenen defekten Festplatten können jedoch einen großen Beitrag zur Datenrettung leisten. Selbst bei fatal geforcten RAID Arrays gibt es noch Chancen auf eine Datenwiederherstellung. Wichtig ist jedoch dabei, dass System nicht länger in Betrieb zu lassen. Vorzugsweise sollte das System SOFORT vom Strom genommen und der Stecker gezogen werden (kein „sauberes“ Herunterfahren).

[Gesamt:0    Durchschnitt: 0/5]

Schreibe einen Kommentar