Zum Inhalt springen

AB 08 — Redundanz

Mein Fortschritt0/1 (0 %)

Redundanz (von lateinisch redundare “überlaufen”, “sich reichlich ergießen”) ist das zusätzliche Vorhandensein funktional gleicher oder vergleichbarer Ressourcen eines technischen Systems, wenn diese bei einem störungsfreien Betrieb im Normalfall nicht benötigt werden.

Beispiele von redundanten Komponenten: Netzgerät, Stromkabel, Informationen (Daten), Netzwerkkarte, kompletter Server, Klimaanlage, Serverraum.

Unter einem Single Point of Failure (kurz SPOF, englisch für etwa einzelne Stelle des Scheiterns) versteht man einen Bestandteil eines technischen Systems, dessen Ausfall den Ausfall des gesamten Systems nach sich zieht.

Beispiele:

  • Der Strom im Serverraum fällt aus und es ist keine unterbrechungsfreie Stromversorgung (USV, engl.: UPS = Uninterruptible Power Supply) vorhanden für den Server und die wesentlichen Netzwerkkomponenten.

  • Der Active-Directory Server eines Netzwerkes fällt aus und es gibt keinen zweiten welcher diese Arbeit übernehmen kann.

  • Es gibt nur einen Switch an welchem alle Server und Rechner angeschlossen sind und dieser fällt aus.

  • Es gibt nur einen Router welcher die Verbindung mit dem Internet herstellt und dieser fällt aus.

  • Der Serverraum wurde unter Wasser gesetzt und fällt komplett aus.

Diese Beispiele haben alle gemeinsam die Aussage “es gibt nur einen … und dieser fällt aus”. Genau dies ist das Problem des Single Point of Failure. Wäre diese eine Komponente mehrmals vorhanden, wären sie redundant, dann könnte das System normal weiter funktionieren.

Die Redundanz ermöglicht einzelne SPOF zu vermeiden.

Ausfallsicherheit: Ziel der Redundanz ist es ein System vor dem Ausfall zu schützen, man spricht von Ausfallsicherheit. Unter Ausfall versteht man, dass das komplette System, oder Teile davon, überhaupt nicht mehr funktionieren.

Funktionssicherheit: Wenn die Komponenten nicht mehr korrekt funktionieren ist das System auch nicht mehr vertrauenswürdig, doch dann spricht man von funktionalen Problemen. Die Redundanz ermöglicht es auch die Funktionssicherheit zu gewährleisten.

Oberstes Ziel ist es ein System zu erstellen/konfigurieren, das eine sehr hohe Verfügbarkeit aufweisen kann.

Ein System gilt als verfügbar, wenn es läuft und korrekte Resultate produziert. Hohe Verfügbarkeit ist, wenn die Verfügbarkeit nahe bei 100% ist.

Wir können also folgende Schlussfolgerungen ziehen:

  • Je mehr Fehler ein System hat, desto weniger ist es verfügbar.

  • Je länger es dauert um ein System zu reparieren, desto weniger ist es verfügbar.

Formel: (Gesamtzeit - Gesamtausfallzeit) / Gesamtzeit = x%

Formel: Verfügbarkeit = MTBF / (MTBF + MTTR)

Beispiele für ein System, das 24 Stunden am Tag, an 365 Tagen zur Verfügung steht:

Verfügbarkeit (Prozent)Minimale erwartete Betriebszeit (Stunden)Maximale erlaubte Ausfallzeit (Stunden)Maximale erlaubte Ausfallzeit (Minuten)
99 %8672,487,65256
99,1 %8681,1678,844730,4
99,2 %8689,9270,084204,8
99,8 %8742,4817,521051,2
99,9 %8751,248,76525,6
99,99 %8759,1240,87652,56
100 %876000

Die Verfügbarkeit wird im Vertrag (Service Level Agreement, SLA) zwischen dem Systembetreiber und dem Kunden festgeschrieben. Dort können auch die Folgen bei Nichteinhaltung der Verfügbarkeit geregelt sein.

Die Verfügbarkeit hat je nach Vereinbarung große Auswirkungen auf die Anforderungen bzgl. Ausfall und Wartbarkeit des Systems.

Im Gegensatz zur Verfügbarkeit steht die Ausfallzeit (engl.: Downtime).

Es wird zwischen verschiedenen Arten von Redundanz unterschieden:

  • Heiße Redundanz (engl. Hot-Spare) bedeutet, dass im System mehrere Systeme die Funktion parallel ausführen. Ein Voter bewertet die Ergebnisse anhand des Mehrheitsentscheides (min. 3 parallele Systeme). Es muss gewährleistet sein, dass die Wahrscheinlichkeit für den gleichzeitigen Ausfall von zwei Geräten gegen 0 strebt.

  • Kalte Redundanz bedeutet, dass im System mehrere Funktionen parallel vorhanden sind, aber nur eine arbeitet. Die aktive Funktion wird bewertet und im Fehlerfall durch einen Schalter auf die parallel vorhandene Funktion umgeschaltet.

  • Standby-Redundanz (passive Redundanz) Zusätzliche Mittel sind eingeschaltet bzw. bereitgestellt, werden aber erst bei Ausfall oder Störung an der Ausführung der vorgesehenen Aufgabe beteiligt.

  • N+1-Redundanz bedeutet, dass ein System aus n funktionierenden Einheiten die zu einem Zeitpunkt aktiv sind und einer passiven Standby-Einheit besteht. Fällt eine aktive Einheit aus, so übernimmt die Standby-Einheit die Funktion der ausgefallenen Einheit. Bei einem weiteren Ausfall einer aktiven Einheit steht das System nicht mehr voll zur Verfügung und wird in der Regel als ausgefallen betrachtet.

Beim Aufbau eines redundant arbeitenden Systems kann man zwei Arten unterscheiden:

  • Bei einer homogenen Redundanz arbeiten gleiche Komponenten parallel.

  • Bei der diversitären Redundanz arbeiten unterschiedliche Komponenten von unterschiedlichen Herstellern zusammen. Dadurch besteht eine gute Aussicht, dass auch systematische Fehler (Konstruktionsfehler) im Betrieb erkannt werden.

Beispiel:

Der Pentium-FDIV-Bug wäre mit homogener Redundanz nicht erkennbar. Wenn das System diversitär redundant aufgebaut wird, beispielsweise aus einem Intel- und einem AMD-Prozessor, könnte ein Voter unterschiedliche Berechnungsergebnisse als Fehler erkennen.

Die Redundanz kann auf mehrere Arten in der Praxis umgesetzt werden. Je nach Umsetzung ist die Sicherheit, im Sinne von Ausfall und Funktionalität, unterschiedlich stark ausgeprägt.

  • Redundanz im Server: nur Komponenten innerhalb des Servers sind mehrmals vorhanden

  • Redundanz von gesamten Komponenten: Server, Kopplungsgeräte, …

  • Redundanz von kompletten Serverräumen: Disaster-Center, Cloud-Services

Bei der Umsetzung der Redundanz ist darauf zu achten, dass eine Kosten-Nutzen-Analyse durchgeführt wird. Die Sicherheit muss den Anforderungen, welche an die Firma gestellt werden oder auferlegt werden durch offizielle Gremien, angepasst sein. In diesem Zusammenhang spricht man oft von der Verfügbarkeit eines Systems.

Je redundanter das System ist, desto verfügbarer ist das System.

Folgende Komponenten eines Rechners/Servers können redundant vorhanden sein: Netzgerät, Ventilatoren, interner Speicher, Netzwerkkarte und Grafikkarte.

Manchmal werden die Komponenten nicht einfach mehrmals in das System gepackt, sondern sie arbeiten auch die ganze Zeit aktiv mit. Auf diese Art und Weise lässt sich die Gesamtlast des Systems verteilen. Man spricht auch noch von Load-Balancing.

Beispiel: redundante Netzwerkkarten; Die Anfragen an den Server werden von 2 Netzwerkkarten bearbeitet, fällt eine dieser Netzwerkkarten aus, bleibt das System komplett funktionsfähig.

Wenn eine fehlerhafte Komponente ausgetauscht werden soll, muss das System heruntergefahren werden, was die Verfügbarkeit vermindert. Es gibt Techniken welche es erlauben Komponenten im laufenden Betrieb auszuwechseln, so dass die Verfügbarkeit nicht gemindert wird. Dies ist die Hot-Swapping und Hot-Plugging Technik.

Hot Swapping (englisch für heißes Tauschen) und Hot Plugging (englisch für heißes Stecken) bezeichnen den Wechsel und die Wechselbarkeit von Systemkomponenten und Modulen im laufenden Betrieb des Systems. Hot Swapping bezieht sich auf den Austausch von Komponenten, die nicht mit Software interagieren. Hot Plugging bezieht sich auf Komponenten, die mit Software (in der Regel dem Betriebssystem) interagieren und meist eine vorinstallierte Unterstützung durch Software benötigen.

Bekannteste Beispiele für Hot-Plug-fähige Technologien sind: USB, FireWire, PCMCIA oder auch Bluetooth zum Anschluss von Peripheriegeräten oder speziellere wie die Festplattenschnittstellen SCSI, eSATA und SAS.

Unter Redundanz von kompletten Komponenten versteht man Komponenten welche eigenständig funktionieren können. Beispiele: Server, Netzwerkfestplatte, USV, Router, Switch, Rack, Leitungen, Stromzufuhr, Kühlmechanismen, usw.

Wenn die Komponenten aktiv im Netzwerk eingebunden sind können sie wie schon vorher zum Load-Balancing eingesetzt werden.

Beispiele:

  • Redundanter Server mit Active Directory: jeder Server braucht im aktiven Betrieb nur die Hälfte der Benutzer zur verwalten, fällt einer aus muss der Andere die komplette Arbeit übernehmen. Natürlich muss zudem sichergestellt sein, dass die Informationen auf beiden Servern synchronisiert sind (repliziert wurden).

  • Redundante Stromzufuhr: Die Firma verfügt über zwei netzwerkunabhängige Stromlieferanten und verfügt zudem über einen eigenen Stromgenerator welcher eine gewisse Autonomie liefert.

  • Redundante Internetleitung: Neben der Standleitung gibt es noch eine Richtfunkstrecke.

  • Redundante Festplatten: Festplatten können gespiegelt werden, oder im Verbund betrieben werden. Allgemein spricht man hier von RAID-Mechanismen welche neben der Verfügbarkeit auch eine Leistungssteigerung hinzufügen können.

Bei der Redundanz der Komponenten ist darauf zu achten wo sich die redundante Komponente befindet. Wenn sich zum Beispiel der redundante Sever im gleichen Raum befindet wie der Hauptserver bietet dies keinen Ausfallschutz bei Brandschaden.

In diesem Kontext sei auch bemerkt, dass die erworbene Redundanz durch Virtualisieren nicht unbedingt Ausfallsicherheit mit sich bringen muss, wenn dieser komplette In-House realisiert wird. Hauptvorteil des Virtualisierens ist aber, dass ein System bei einem Ausfall sehr schnell wiederhergestellt werden kann.

Die ultimative Variante von Redundanz ist es seinen Serverraum noch einmal, so zu sagen 1:1, an einem anderen Ort betreiben zu können. Heutzutage bieten Rechenzentren solche Dienste an. Der Aufbau, die Eigenschaften und die Dienste von Rechenzentren werden noch später im Kurs beschrieben.

Mit Rechenzentrum bezeichnet man sowohl das Gebäude bzw. die Räumlichkeiten, in denen die zentrale Rechentechnik (z. B. Rechner aber auch die zum Betrieb notwendige Infrastruktur) einer oder mehrerer Unternehmen bzw. Organisationen untergebracht sind, als auch die Organisation selbst, die sich um diese Computer kümmern. Ihr kommt damit eine zentrale Bedeutung in der Unternehmens-EDV zu.

Der Begriff Disaster Recovery (im Deutschen auch Katastrophen-Recovery oder Notfallwiederherstellung genannt) bezeichnet Maßnahmen, die nach einem Unglücksfall in der Informationstechnik eingeleitet werden.

Es geht um die Vorsorge gegen alle Bedrohungen, die aus dem Eintreten einer Katastrophe entstehen können. Dies können Naturkatastrophen sein wie Feuer, Wasser oder technische Katastrophen, wie der Ausfall von Geräten oder der Versorgung mit Strom und Wasser, oder auch Probleme, die durch Menschen verursacht werden, entweder durch Fehler, Nachlässigkeit oder sogar Vorsatz. Dazu zählt sowohl die Datenwiederherstellung als auch das Ersetzen nicht mehr benutzbarer Infrastruktur, Hardware und Organisation.

Umfassender als Disaster Recovery ist der Begriff Business Continuity, der nicht die Wiederherstellung der IT-Dienste, sondern unterbrechungsfreie Geschäftsabläufe in den Vordergrund stellt.

Der Disaster Recovery Plan ist nichts anderes als ein Prozedere welches durchlaufen wird wenn ein Ausfall einer oder mehrerer Komponenten auftritt. Dann muss sichergestellt werden, dass die redundanten Komponenten automatisch oder manuell (aber schnellstmöglich) das System wieder zur vollen Funktionalität hinführen.

Solch ein Disaster Recovery Plan sollte nicht nur existieren, sondern er muss vor allem auch real getestet werden in der Firma.

Da Redundanz hier eine zentrale Rolle spielt, muss das Management genügend Geld dafür zur Verfügung stellen.

Betriebskontinuitätsmanagement (BKM) (englisch business continuity management (BCM)) bezeichnet in der Betriebswirtschaftslehre die Entwicklung von Strategien, Plänen und Handlungen, um Tätigkeiten oder Prozesse – deren Unterbrechung der Organisation ernsthafte Schäden oder vernichtende Verluste zufügen würden – zu schützen bzw. alternative Abläufe zu ermöglichen.

Ziel ist somit die Sicherstellung des Fortbestands des Unternehmens im Sinne ökonomischer Nachhaltigkeit im Angesicht von Risiken mit hohem Schadensausmaß.

BKM bezeichnet zusammenfassend eine Managementmethode, die anhand eines Lebenszyklus-Modells die Fortführung der Geschäftstätigkeit unter Krisenbedingungen oder zumindest unvorhersehbar erschwerten Bedingungen absichert. Es besteht eine enge Verwandtschaft mit dem Risikomanagement.

Die Art von Ereignissen (Incidents) lässt sich in verschiedene Sparten unterteilen:

  • IT/System-Ausfall

  • Gebäudeausfall

  • Ausfall von Personal (bspw. Pandemie)

  • Ausfall von Lieferanten/Partnern

Abbildung

Welche RAID-Level kennen die folgenden Eigenschaften?