Datensicherungs-Tücken

Datenverlust trotz Time Capsule oder Time Machine

Ein Klick – kontinuierliche Datensicherung. Mit dieser Botschaft wirbt Apple erfolgreich für sein Produkt Time Capsule.

Apple bietet  mit der automatischen Datensicherung ein quasi rundum Sorglospaket für seine User, wenn das Produkt richtig gehandhabt wird. Wir stellen jedoch vermehrt fest, dass Kunden trotz Einsatzes der Time Capsule von Datenverlust betroffen sind, denn die Time Capsule verleitet zur Nachlässigkeit.

So kommt es vor, dass eine Time Machine Datensicherung auf der Systemfestplatte auf einer weiteren Partition durchgeführt wird. Dies hat fatale Folgen, wenn die Festplatte mechanisch beschädigt wird und ein Zugriff auf die Daten nicht mehr möglich ist – und das kann schneller passieren, als man vermutet. Schon leichte Erschütterungen im laufenden Betrieb oder ein zu fest zugeklappter Deckel des MacBooks können zu Oberflächenschäden auf der Magnetschicht der Festplatte führen, nicht selten ist die Schreib-/Leseeinheit ebenfalls in Mitleidenschaft gezogen. Eine Datensicherung auf der einzigen Systemplatte sollte daher bestenfalls als zusätzliche, aber nicht als einzige Datensicherung dienen.

Doch auch mit dem Einsatz einer externen Festplatte kommt es mit der Time Capsule immer wieder zu Datenverlust. Dabei stellt nicht Time Capsule selbst das Problem dar. Der klassische Fall ist, wenn die Festplatte von überflüssigen Daten bereinigt wird – mit dem Wissen, dass die nun gelöschten Original-Daten ja regelmäßig auf der Time Capsule gespeichert wurden. Jedoch werden nach einer gewissen Anzahl von Sicherungs-Zyklen auch die Sicherungskopien dieser Daten gelöscht. Eine Datenrettung ist dann oft nur noch von der internen Festplatte möglich, da auf der externen Festplatte die Daten bereits mit neuen Backups überschrieben sind.

Datensicherung versus Datenauslagerung

Bekannter XY: „Meine Fotos sind alle auf einer externen Festplatte gesichert!“

Nicolas: „Ah, sprich Du hast die Fotos sowohl am PC als auch auf der externen Festplatte?“

Bekannter XY: „Nein, wieso am PC, hab sie ja eh auf der externen Festplatte?“

Solche Gespräche sind keine Seltenheit. Vielen Personen ist offensichtlich nicht bewusst, dass eine Datenauslagerung nicht mit einer Datensicherung zu verwechseln ist. Zum Beispiel Fotos auf einer externen Festplatte zu speichern ist nur dann eine Datensicherung, wenn eine Kopie (oder eben das Original) auf dem PC oder Laptop gespeichert ist. Werden die Daten nur auf der externen Festplatte gespeichert handelt es sich um eine Datenauslagerung ohne irgendeine Redundanz.

Bizarrste Datenverlust-Fälle: Rückblick 2011

Unsere aktuelle Presseaussendung, viel Spass 🙂

„Live“ aus dem Reinraumlabor von Datenretter Attingo – abenteuerlich, kurios, lehrreich

Unverhofft kommt oft: Plötzlicher Datenverlust entsteht mitunter durch verborgene Risiken, mit denen absolut niemand gerechnet hat. Und die Folgen können fatal sein. Da kann eine ganze Stadtverwaltung still stehen oder ein langfristiges Forschungsprojekt sämtliche Messergebnisse verlieren. In solchen Fällen springt Datenretter Attingo ein. Das auf Datenwiederherstellung spezialisierte Unternehmen mit Standorten in Wien, Hamburg und Amsterdam kann in mehr als 90 Prozent der Fälle auch unwiderruflich verloren geglaubte Datensätze rekonstruieren. Dafür stehen Reinraumlabore und mehr als 10.000 Teile umfassende Ersatzteillager zur Verfügung. Der Rückblick zum Jahresende 2011 beleuchtet Highlights aus der Datenrettung – von abenteuerlich bis kurios. Daraus gezogene Lehren dürfen gern als gute Vorsätze für 2012 verwendet werden.
Forschung mit Sprengkraft

Ein wahrlich erschütterndes Erlebnis hatte die technische Universität Luleå in Schweden. Ein Forschungsteam bereitete ein Jahr lang ein aufwendiges Experiment vor, bei dem eine große Sprengung durchzuführen war. Während der Sprengung wurden über empfindliche Sensoren Parameter gemessen und an einen „Datenlogger“ mit handelsüblicher Festplatte übertragen. Jedoch hat die enorme Luftdruckstoßwelle den Datenträger während des Experiments außer Gefecht gesetzt. Die Forschungsergebnisse schienen verloren. Mit speziellen Rekonstruktionsverfahren konnten die Messwerte dann im Wiener Labor wieder zugänglich gemacht werden.
Schwarzer Freitag

An einem verhängnisvollen Freitag gingen nicht nur die Verwaltungsmitarbeiter einer bekannten Landeshauptstadt ins Wochenende, sondern auch gleich eine ganze Reihe wichtiger Server. Ein zentraler Festplattenverbund mit dutzenden virtualisierten Systemen – Unix-, Windows-, Dokumentablagen- und Datenbank-Server – „meldete sich offline“. Weder Email noch Webdienste funktionierten. Stillstand. Grund war ein unentdeckter Serienfehler in der Firmware der Festplatten, wobei diese von einem führenden Hersteller stammten. Daraufhin wurde an diesem Wochenende doch gearbeitet: Die zur Hilfe gerufenen Datenretter rotierten in einem Rund-um-die-Uhr-Einsatz. Am Dienstag nach dem verlängerten Wochenende waren alle Server „wieder ansprechbar“.
Bombe zerfetzt Filmaufnahmen

Reporter eines privaten Nachrichtensenders filmten live an einem Kriegsschauplatz in Vorderasien. Zur Aufzeichnung wurde ein Blu-Ray-Medium verwendet. Nach Stunden an Filmaufnahmen wurde das Equipment von einer Streubombe getroffen und komplett zerstört. Darunter auch die Kamera mit dem Blu-Ray-Medium, welches das Labor von Attingo in unkenntlichem Zustand erreichte. Der Sender hoffte, zumindest die letzten Minuten der Aufnahme retten zu können. Tatsächlich ließen sich aber noch mehr als 95 Prozent der Videodaten wiederherstellen.
Die 3-Terabyte-Falle

Ein öffentlich rechtlicher Fernsehsender speicherte auf einer brandneuen externen 3-Terabyte Festplatte wichtige Videos. Das Team wusste jedoch nichts von dem verborgenen „Bug“, der bei der noch jungen Technologie zu Speicherproblemen führt: Ältere Chipsätze und Treiber erkennen das 3-TB-Volumen nicht korrekt und behandeln die Festplatte so, als wenn sie nur 2 TB hätte. Sprich: Beim Speichern von Daten wird die Festplatte, nachdem 2 TB voll belegt sind, von vorne weiter beschrieben, wodurch die zuvor gespeicherten Daten überschrieben und unwiederbringlich vernichtet werden. So erging es leider auch diesen Fernseh-Videos, von denen nur noch Fragmente rekonstruierbar waren. Da blieb nur mehr: Klappe, die zweite …
Echte Nostalgie

Ein privater Kunde wollte Computerspiele der guten alten Spielkonsole Commodore 64 sowie auch selbst entwickelte Programme aus derselben Epoche für moderne Computer verfügbar machen. Das nennt man wahre Leidenschaft: Hunderte uralter C64-Floppies wurden zur Verjüngungskur an Attingo geschickt. Die Techniker staunten nicht schlecht und gruben aus dem hauseigenen Ersatzteillager die notwendigen Uralt-Technologien aus. So konnten mit Hilfe manipulierter C64-Disketten-Laufwerke schließlich sämtliche Daten gelesen und konvertiert werden. Für die Oldies hieß es also doch nicht „Game over“.

Zwangs-Verschlüsselung bei externen Festplatten

Die Anzahl an der externen Festplatten, die ohne Eingabe eines Passwortes bereits Daten verschlüsselt ablegen, ist stark am steigen. Laufend treffen bei uns Festplatten im Labor ein, die entweder aufgrund eines Hardwareschadens der Festplatte selbst oder am externen Gehäuse defekt sind: Fatal ist hierbei, dass die Daten bereits ohne Aktivierung oder Passwortvergabe des Benutzers verschlüsselt gespeichert werden. Eine Rekonstruktion ist bei einigen Modellen nur mit der Original-Elektronik des externen Gehäuses möglich.

Die gute Nachricht: Die Daten sind trotzdem meistens rekonstruierbar. Der Aufwand ist jedoch im Vergleich zu einer unverschlüsselten Platte höher. Unverständlich für uns ist, warum der Kunde über die meist nicht gewollte Standardverschlüsselung nicht klar informiert wird.

Technische Details: Die Keys, die für eine Entschlüsselung notwendig sind, liegen abhängig von Hersteller in (mindestens) einem der folgende Bereiche: Auf Sektoren auf der Festplatte, in der Firmware der Festplatte, in der Firmware des externen Gehäuses.

Der Fluch von RAID0-Systemen

Die Anzahl der RAID0-Datenrettungen (Stripe) steigt in den letzten Monaten massiv an. Sowohl RAID-Systeme in Servern als auch USB-RAID-Platten oder NAS-RAID-Systeme landen immer häufiger in unseren Labors.

Vor allem setzen Firmen (insbesondere im Bereich Multimedia, Marketing, Video, Musik) vermehrt auf RAID0-Systeme. Das Risiko ist jedoch enorm hoch. Fällt einer der Datenträger aus, kann nur noch ein professioneller Datenretter helfen.

Bei RAID0-Systemen werden beide Datenträger zu einem einzigen virtuellen Datenträger zusammengefaßt. Die Daten werden abwechselnd auf beiden Datenträgern ohne Redundanz verteilt. Fällt nun ein Datenträger aus, sind nur noch etwa 50% der physikalischen Datenfragmente vorhanden. Somit besteht keine Möglichkeit mehr, auf das Dateisystem oder gar auf die Daten zuzugreifen.

Bei RAID0-Systemen steht somit immer die Summe der Kapazitäten beider Datenträger zur Verfügung (also z.B. bei 2 x 1 TB stehen dann 2 TB zur Verfügung). Weiters wird oft argumentiert, die Performance sei sehr schnell, da der Controller parallel mit beiden Platten arbeiten kann.

De Facto gibt es bei den meisten Systemen sogut wie keinen Performance-Vorteil. Wir empfehlen mit Nachdruck, statt eines RAID0-Systems ein RAID1-System (Spiegelung) einzusetzen. Bei höherem Speicherbedarf empfehlen wir, entweder Festplatten mit einer größeren Kapazität zu verwenden (z.B. 2 x 2 TB) oder auf ein RAID5-Verbund zu nutzen.

Des Weiteren besteht bei RAID0-Systemen aufgrund der überdurchschnittlich hohen Kapazität die Problematik, dass Anwender aufgrund eingeschränkter Speicherkapazitäten der Festplatten (Maximale Speicherkapazität liegt derzeit bei 3TB ) keine Datensicherung durchführen.

Tape Backup bei Microsoft Windows Server 2008

Microsoft liefert mittlerweile keine Tape-Unterstützung bei seinen Server-Betriebssystemen mit. Jedoch ist für viele KMUs ein Tape-Datensicherung eine praktische Sache, egal ob Windows 2008 Server oder Windows SBS 2008. Kommerzielle Backup-Software ist oft teuer und in der Bedienung viel zu komplex, sie geht an der Realtität vorbei.
Hier eine kurze Anleitung für SBS2008 wie es doch funktionieren kann – Verwenden und Testen auf eigenes Risiko! Gute Kenntnisse im Batch-Programmierung sind Voraussetzung, diese Anleitung soll nur Ideen darstellen, keine komplette Umsetzung präsentieren.

Benötigte Tools:
– wbadmin (ist bei SBS 2008 dabei)
– mt.exe (Version 1.0.1 Luis C. Castro Skertchly)
– tapecopy.exe (Version 1.5 Luis C. Castro Skertchly)
– tar-1.13-1-bin.exe (GNU)

Der Befehl startet eine komplette Sicherung von Laufwerk C (inkl. Exchange, etc.) und schreibt das Backup auf die Freigabe \\backup\backup. Damit wbadmin auch auf Netzwerk-Shares schreiben kann ist folgender Registry-Eintrag notwendig:
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\wbengine\SystemStateBackup\
DWORD AllowSSBToAnyVolume=1
wbadmin start backup -quiet -backupTarget:\\backup\backup -include:c: -allCritical
-vssFull

Um nun auf Tape zu sichern, sind folgende Befehle notwendig:

c:\tools\mt -t tape0 rew
„c:\Program Files (x86)\GnuWin32\bin\tar“ –create –block-size=65536 –verbose \\backup\backup\*.* | c:\tools\tapecopy -b 65536 -r -c -d tape0

Die Rücksicherung erfolgt über:
c:\tools\tapecopy -b 65536 -r -x -d tape0 | „c:\Program Files (x86)\GnuWin32
\bin\tar“ –extract –block-size=65536 –verbose

Aus Sicht eines Datenretters ist diese Vorgehensweise ideal: TAR ist quelloffen und verwendet eine einfache Struktur zur Verwaltung der Archive.

Generell gilt es bei Tape-Backups (so wie bei allen Backups) laufend ein Restore zu Testen. Die häufigste Ursache von Datenverlust bei Tape-Sicherungen ist dass sich das Laufwerk über die Jahre dejustiert. Eine Sicherung und Rücksicherung mit dem Laufwerk ist meistens noch möglich (soweit die Sicherung nicht lange zurückliegt), jedoch bei einem notwendigen Tausch des Laufwerkes ist eine Rücksicherung nicht mehr möglich.

Datenrettung mit Verrechnung nach Kapazität

Immer wieder werden unsere Kundenberater gefragt, ob wir die Kosten einer Datenrettung aus der Kapazität des Datenträgers berechnen oder ob es billiger sei, wenn nur einige wenige Dateien benötigt werden.

Beide Fragen sind klar mit „Nein“ zu beantworten. Die Kosten einer Datenrettung setzen sich primär aus dem Aufwand der Datenrekonstruktion zusammen. Dies ist mit einem einfachen Beispiel erklärbar: Eine 2 TB Festplatte, bei der leichte elektronische Defekte an der PCB vorliegen (z.B. durchgebrannet Sicherung) ist mit deutlich weniger Aufwand zu rekonstruieren, als eine 20 MB Festplatte eines Steuerungssystems, welche einige Tage unter Wasser geraten war. Oder: Eine einzelne gelöschte Datei unter NTFS einer 1 TB Festplatte ist meistens einfach rekonstruierbar als eine 80 GB Festplatte die aufgrund eines Blitzschlages zerstört wurde.

Und warum ist jetzt eine einzelne Datei nicht günstiger als wenn alle Daten rekonstruiert werden?

Der größte Teil aller Schäden bei Datenträgern sind Hardwareschäden. Der Aufwand der Datenrekonstruktion liegt in der Reperatur des Datenträgers. Danach legen unsere Techniker mehere idente Kopien auf neue Datenträger an, von welchen dann die Dateisysteme repariert werden. Wenn der Vorgang abgeschlossen ist, haben wir Zugriff auf die Daten. Ob nun einige wenige Dateien wegkopiert werden, oder wir alle auf einen neuen Datenträger für den Kunden kopieren ist vom Aufwand egal, da der Prozess automatisiert stattfindet. Das heißt unsere Kunden erhalten immer alle rekonstruierten Daten geliefert.

Die Datenrettung in der Datenrettung in der Datenrettung in der Datenrettung…

Virtualisierte Systeme sind mittlerweile in Server-Landschaften nicht mehr wegzudenken. Jedoch steigt mit diesen die Komplexität per physikalischen Server. Gerade haben unsere Techniker im Labor Hamburg einen spannenden Datenrettungsfall erfolgreich abgeschlossen: Einem sehr großem deutschen Provider ist ein Enterprise Storage System verstorben. Das Systemhaus angerufen, eine NetApp bestellt, leider etwa vier Wochen Lieferzeit. Also nimmt man ein gerade im Lager verfügbares Low-Cost-Raid-System (mit 8x 2 TB Festplatten im Raid6-Verbund mit einer Spare-Platte, also etwa 10 TB netto Kapazität) und spielt das vorhandene Backup (wie feig, die haben ein Backup *g*) zurück.

Jetzt kommt der für uns Datenretter schöne Teil der Geschichte: einige Tage vor dem Liefertermin der NetApp stirbt auch dieses Raid-System, mehrere Platten fallen aus. Jedoch *kein* Backup mehr vorhanden (die gesamte Infrastruktur war für das Temporär-Raid nicht ausgelegt). Panik bricht aus, Platten werden wild getauscht, Rebuilds des Raid-Verbundes gestartet. Die Raid-Konfiguration geht verloren, es wird versehentlich ein Raid5 online gezwungen, teilweise Rebuildet. Irgendwann geben die Techniker auf, nach Anrufen bei einigen Datenrettungsanbietern erreicht er Attingo Datenrettung in Hamburg, und ist ganz überrascht, dass sein gegenüber (Anm. d. Redaktion: Attingo *g*) den beschriebenen Ablauf des Datenverlustes auch versteht, bis dato hatte keiner der Anbieter nur ansatzweise Verstanden wovon er spricht.

Nun, die Sache war ja zugegeben noch viel komplexer als bis dato beschrieben: Das RAID-System ist ein NAS, also ein Network Attached Storage. Das bedeutet, dass das RAID-System ein eigenes Betriebssystem verwendet, eine eigene Freigabe-Software und ein Web-Interface zur Konfiguration von RAID, LUNs (Partitions) sowie Freigaben und Berechtigungen besitzt (meistens zumindestens). In der Regel wird Linux oder BSD (aufgrund seiner Lizenz) eingesetzt, in diesem Fall war es jedoch der Windows 2008 Enterprise Storage Server (ja, so etwas gibt es auch auf NAS Boxen…). Der Kunde erklärte nun, er habe auf diesem RAID zwischen 10 und 15 Virtuelle Maschinen (.VMDK). Die wichtigste von diesen virtuellen Maschinen beinhaltet eine VMWARE ESX Installation (pervers, nicht wahr, auf einen Windows Server legt man eine VMDK mit ESX ab). In dieser VMWARE ESX VMDK Datei (dieses enthält das VMFS Dateisystem) befinden sich weitere VMDK Dateien, eine davon eine Linux Installation mit LVM, EXT4 und einer PostgresSQL Installation. Diese benötigen sie ganz dringend, der Rest hat auch ein oder zwei Tage Zeit.

Anfangs war die schwierigste Aufgabe ein Diagramm des Storage-Systems zu konstruieren. Nur wenn die Techniker genau wissen wie die LUNs, Dateisystem, Virtuelle Maschinen, LVMs, etc. abgelegt sind, ist eine schnelle gezielte Datenrettung möglich. In den meisten Fällen hat der Techniker des Kunden jedoch oft gar die exakte Kenntnis darüber.

Im Labor von Attingo wird vorerst immer mit der physikalischen Datenrettung begonnen. Sprich Datenträger ab in den Reinraum, physikalischen Schaden analysieren, beheben und 1:1 Rohdatenkopien anlegen.

Danach stellen sich folgende Fragen: In welcher Reihenfolge hat der Raid-Controller die Festplatten tatsächlich verwendet (diese hat selten etwas mit der Beschriftung auf den Slots zu tun), wie sind die anderen Parameter des Raid-Systems (RAID-Algorithmus, Block-Size, etc.). Da jedoch bereits bereiche durch Rebuilds, Änderung des RAID-Levels mit Online-Force, etc. überschrieben wurden, benötigt man auch den Anfang des „Ursprünglichen“ RAID6-Verbundes (also bis zu welchem Sektor wurde überschrieben). Ab dieser Stelle – vorausgesetzt man hat alle Rohdaten – kann man davon ausgehen, dass die Daten keine Fehler haben. An den Stellen davor sind Rohdaten unwiederbringlich verloren. Jedoch finden die Techniker von Attingo heraus, dass die Spare-Festplatte nach dem Ausfall der ersten Festplatte angesprungen ist und der Controller ein Rebuild gestartet hat. Dieses ist jedoch nach dem Auftreten eines Hardwaredefektes einer weiteren Festplatte abgebrochen. Der Kunde hatte Glück im Unglück – das Rebuild war bereits über die Stelle hinaus gelaufen, bis zu der der RAID5-Rebuild durchgeführt wurde. Da wir auch die Rohdaten der defekten Festplatten auslesen konnten, hatten die Techniker genug Daten zur Verfügung, um aus Einzelteilen (je nach Sektornummer andere Festplatten) auch den Anfang des RAID6-Verbundes rekonstruieren zu können.

Danach können die Attingo mit einer inhouse entwickelten Software-/Hardwarelösung den RAID-Verbund virtuell simulieren.

Das gesamte RAID konnte rekonstruiert werden. Dies war auch sehr wichtig, weil am Anfang des Laufwerks die MFT (Master File Table) von NTFS liegt. VMDKs die im Betrieb wachsen können liegen fragmentiert auf dem Laufwerk, nur mit Hilfe der MFT (Runlist) können die einzelnen Fragmente wieder zusammen gesetzt werden.

Sobald unsere Techniker Zugriff auf die VMDKs hatten war es nur noch Routine: Die VMDK mit VMFS identifizieren, mounten, die benötigte VMDK innerhalb identifizieren, extrahieren, dort dann das LVM extrahieren, die benötigte Partition finden, EXT4 mounten, die PostgreSQL Datenbank finden, kopieren, testen, SQL Dump erstellen und den Kunden ausliefern.

Schöne neue Virtuallisierungswelt.

Seriendefekt bei Seagate-Festplatten

Festplatten sind wie Computer im Miniaturformat: Sie sind mit einem Prozessor, Arbeitsspeicher, Schnittstellen und Software ausgestattet. Moderne Festplatten verfügen oft über mehrere dutzend bis hundert MB an eigener Software. Eine Festplatte bootet demnach auch wie ein Computer: Attingo kann diesen Boot-Prozess über spezielle Schnittstellen mitverfolgen.

Leider ist Software fehleranfällig. So passiert es immer wieder, dass Festplatten mit fehlerhafter Firmware (das ist die Software der Festplatte, die vom Hersteller implementiert wird) ausgeliefert werden. So ist es Seagate ergangen, sogar mit einer sehr großen Anzahl an verschiedenen Modellen:

Vom Fehler betroffen sind:

Barracuda 7200.11
ST31000340AS, ST3750330AS, ST3750630AS, ST3640330AS, ST3640530AS, ST3500320AS, ST3500620AS, ST3500820AS, ST31500341AS, ST31000333AS, ST3640323AS, ST3640623AS, ST3320613AS, ST3320813AS, ST3160813AS

Barracuda ES.2 SATA
ST31000340NS, ST3250310NS, ST3750330NS, ST3500320NS

SV35.3
ST31000340SV, ST3750330SV, ST3500320SV

SV35.4
ST3320410SV

Maxtor (Seagate)
DiamondMax 22, STM31000340AS, STM31000334AS, STM3640323AS, STM3750330AS, STM3320614AS, STM3500320AS, STM3160813AS

Der Fehler zerstört während des Betriebes Bereiche der Firmware. Es werden Teile der Firmware mit Daten überschrieben, die eigentlich an eine andere Stelle auf der Platte gehören. Die Firmware befindet sich bei modernen Festplatten nämlich nur zu einem kleinen Teil in einem EPROM oder im Prozessor auf der PCB (Platine), der größte Teil liegt in einem eigenen Bereich direkt auf der Festplatte (da ist der Speicherplatz billiger). Der Fehler bewirkt, dass die Platte beim nächsten Einschalten nicht mehr booten kann. Ein simples Einspielen einer neuen Firmware ist nicht mehr möglich, da die Festplatte bereits am Beginn des Boot-Vorganges gestört ist und somit kein Zugriff auf die Festplatte (Magnetscheiben) mehr möglich ist.

Attingo Datenrettung hat ein Verfahren entwickelt, um trotzdem noch die Daten von derart beschädigten Festplatten retten zu können.