Fehlertoleranz
Ein System ist fehlertolerant, wenn es trotz des Auftretens unvorhergesehener Fehler weiterhin in der Lage ist, seine Funktionen korrekt auszufuehren.
Ein fehlertolerantes System hat somit die Eigenschaft, dass es bei Auftreten von Fehlern graziös degeneriert, d. h. möglicherweise mit verringerter Effizienz oder Genauigkeit weiterarbeitet.
Systemsicherheit
Ein System gilt als sicher, wenn die Wahrscheinlichkeit auftretender Fehler minimiert ist.
Das Konzept der Systemsicherheit befasst sich mit der Minimierung des Fehlerrisikos.
Natürlich kann man das Auftreten von Fehlern nie völlig ausschließen.
Permanente Fehler
• Permanente Fehler sind Fehler, die bei Auftreten die jeweilige Komponente oder das System permanent außer Betrieb setzen.
• Transiente Fehler
• Transiente Fehler sind solche Fehler, die dazu führen, dass eine Komponente oder ein System für ein bestimmtes Zeitintervall nicht korrekt arbeitet. Nach diesem Zeit-intervall ist der Fehler nicht mehr präsent und das korrekte Systemverhalten ist wie-derhergestellt.
Sporadische Fehler
• Sporadische Fehler sind generell immer präsent, zeigen sich allerdings nur in un-regelmäßigen Intervallen als Fehlverhalten des Systems.
Transiente und sporadische Fehler
Transiente und sporadische Fehler lassen sich häufig sehr schwer diagnostizieren, da ihr Auftreten oft keinem vorhersehbaren Muster folgt. So ist es zum Beispiel schwer, einen Programmierfehler zu identifizieren, der nur bei bestimmten Konfigurationen der Eingangswerte oder Parameter auftritt. Hier setzt man spezielle Verfahren der Softwaretechnik ein, die sich mit dem Testen von Software und der Identifikation von Fehlern befassen, die daten-oder konfigurationsabhängig sind.
Unkritisch
Ein Fehler, der ein System zu einem kompletten Stillstand bringt, als unkriisch anzusehen, wenn keine falschen Resultate generiert werden
Kritische oder byzantische Fehler
Die kritische Fehler solche, die verfälschte Werte an andere Komponenten weitergeben und so-mit fehlerhafte Ergebnisse erzeugen. Diese Fehler werden auch häufig als byzantinische Feh-ler bezeichnet
Exemplarisch für einen kritischen Fehler betrachtet man ein System, das durch das Austauschen von Messwerten mit anderen Systemen oder Komponenten Entscheidungen koordiniert. Wenn das System allen Komponenten die gleichen (korrekten) Messwerte mitteilt, können alle Teilsysteme unabhängig voneinander Entscheidungen treffen, die mit den bekannten Messwerten korrespondieren. Wenn nun das System aber unterschiedliche (falsche) Messwerte an die Teil-systeme verteilt, so werden diese nicht in der Lage sein, ein konsistentes Ergebnis zu errechnen und somit möglicherweise eine inkonsistente Entscheidung treffen.
Exemplare für kritische Fehler
Redundanz
Die Verfügbarkeit von mehr Ressourcen als minimal notwendig, um das Funktionieren des Systems zu gewährleisten, wird als Redundanz bezeichnet.
Dabei umfassen diese Ressourcen nicht nur die notwendigen Hardware- und Soft-warekomponenten, sondern auch Zeit und Raum.
So kann möglicherweise die räumliche Verteilung oder Ausbreitung von Komponenten zur Fehlertoleranz eines Systems beitragen.
Dieser Ansatz wird insbesondere im Gebiet der verteilten Rechnersysteme genutzt, indem ein System so konzipiert wird, dass es keinen zentralen Punkt enthält, der durch Auftreten eines Fehlers das gesamte System funktionsunfähig macht.
Hardwareredundanz
Die wohl am häufigsten angewandte Form der Redundanz ist die Hardwareredundanz. Da-bei werden funktionskritische Elemente eines Systems dupliziert (oder multipliziert) oder es wird eine spezielle Funktion auf unabhängige Komponenten verteilt.
Es soll dadurch gewährleistet werden, dass bei Auftreten eines Fehlers die Funktion weiterhin ausgeführt werden kann, obwohl es dabei zu einer Reduzierung der Qualität oder Effizienz kommen kann. Als Beispiel dafür betrachte man eine Zweikreisbremse eines PKW, bei dem die Vorderräder und Hinterräder durch zwei separate Bremskreise gesteuert werden.
Sollte in einem Bremskreis ein Fehler auftreten (z. B. durch ein Leck in der Bremsleitung), so ermöglicht der andere Bremskreis noch das Fahrzeug abzubremsen. Die Bremsleistung wird durch das Auftreten eines solchen Fehlers jedoch verringert.
statische und dynamische Redundanz
Weiterhin lässt sich das Konzept der Redundanz in statische und dynamische Redundanz unterteilen.
Während bei statischer Redundanz die redundanten Ressourcen aktiv sind, werden sie bei der dynamischen Redundanz bei Bedarf als Ersatzkomponenten aktiviert.
Daher wird durch statische Redundanz das Auftreten eines Fehlers maskiert und es ist nicht unmittelbar erkennbar, dass eine Systemkomponente ausgefallen ist.
Ein Beispiel für statische Redundanz ist die Verfügbarkeit von Plattenspeichern oder Prozessoren.
Das Betriebssystem wird immer versuchen, alle verfügbaren Ressourcen zu nutzen, um damit einen Lastausgleich im Rechnersystem zu erreichen.
Das Ausfallen dieser Komponenten hat zur Folge, dass diese anfallende zusätzliche Last entweder auf andere Prozessoren ver-teilt werden, oder, im Fall von Speicherfehlern, eine neue Speicherverteilung der Prozesse stattfinden muss.
Ein dynamisches Umschalten auf Ersatzkomponenten erfolgt häufig automatisch, wie zum Beispiel bei einem Netzteil, welches durch einen automatischen Fault-Over im Fehlerfall ein zweites Netzteil aktivieren kann
Last changed2 years ago