Warum braucht man Zuverkässigkeitstechniken?
Zuverlässigkeitstechnik
Notwendig
zuverlässig funktionierende Systeme/Produkte
Betrachtungseinheit
Teilsystem, Software, Baugruppe, Bauelement (je nach Aufgabe)
Schwierigkeiten
steigende Funktionsdichte
verkürzte Entwicklungszeiten und –zyklen
steigende Qualitätsanforderungen
Integration neuer Technologien
Was bedeutet Zuverlässigkeit?
DIN 40041: Zuverlässigkeit ist die Beschaffenheit bezüglich der Eignung, während oder nach vorgegebenen Zeitspannen bei vorgegebenen Arbeitsbedingungen die Funktionsanforderungen zu erfüllen
Was bedeutet Verlässlichkeit
Grad der Vertrauenswürdigkeit in die vom System erbrachte Leistung
Was bedeutet Verfügbarkeit/Nutzbarkeit
Maß dafür, in welchem Prozentsatz der Zeit ein System oder eine Komponente für seine vorgesehene Funktion einsatzbereit ist
Was versteht man unter Fehler
Nichterfüllung einer Forderung
eine Komponente ist in einem nicht funktionsfähigen Zustand
Was versteht man unter Ausfall
Beendigung der Funktionsfähigkeit einer materiellen Einheit im Rahmen der zugelassenen Beanspruchung
das Aussetzen der Ausführung einer festgelegten Aufgab
Übergang (Ereignis) vom fehlerfreien (= funktionsfähigem) in den fehlerhaften (= nicht funktionsfähigem) Zustand
Welche Ursachen für Ausfälle gibt es
Fehler bei Spezifikation, Entwurf, Realisierung, Zusammenbau, Betrieb
inhärent unzulänglich ( von Haus aus unzuverlässig)
überbeansprucht
Alterung
Umweltfaktoren
Wie zuverlässig ist eine Funktionseinheit?
Beschaffenheit einer Funktionseinheit bzgl. ihrer Fähigkeit, während oder nach vorgegebenen Zeitspannen bei festgelegten Betriebsbedingungen die Funktionsanforderungen zu erfüllen
zeitbasierter, mit Unsicherheiten behafteter Qualitätsbegriff
Wie hoch ist die Lebensdauer einer Betrachtungseinheit?
für die einzelne nicht instandsetzbare Betrachtungseinheit die beobachte Zeitspanne L vom Beanspruchungsbeginn t0 bis zum Ausfallzeitpunkt tF
Wie hoch ist die Verfügbarkeit eines Systems?
Wahrscheinlichkeit V, ein System zu einem vorgegebenen Zeitpunkt t in einem funktionsfähigen Zustand anzutreffen
Wie wird die Zuverlässigkeit quantifiziert
𝑅= P (Ausfall)
Was bedeutet MBTF, MTTF und FR
MBTF mean time between failure
MTTF mean time to failure
FR failure rate
Was ist ein sicherheitskritisches System
ein sicherheitskritisches System oder lebenswichtiges System ist ein System, dessen Ausfall oder Fehlfunktion zu einem (oder mehreren) der folgenden Ergebnisse führen kann
Tod oder schwere Verletzungen von Menschen
Verlust oder schwere Beschädigung von Ausrüstung/Eigentum
Umweltschäden
Was ist ein Unfall (oder Zwischenfall)
ungeplantes Ereignis oder eine Folge von Ereignissen, die zum Tod oder zur Verletzung von Menschen, zu Sach- oder Umweltschäden führen
Was versteht man unter Gefahr
Situation, die einen Unfall verursachen oder dazu beitragen kann
Was ist der Gefahrenschweregrad
Einschätzung des schlimmsten möglichen Schadens, der durch eine bestimmte Gefahr entstehen könnte
Was versteht man unter Risiko
Maß für die Wahrscheinlichkeit, dass das System einen Unfall verursacht
Was versteht man unter Verlässlichkeit
spiegelt das Ausmaß des Vertrauens des Benutzers wider, dass es wie vom Benutzer erwartet funktioniert und dass es bei normaler Nutzung nicht „ausfällt”
Dimensionen der Verlässlichkeit (Dependability)
Verfügbarkeit
Zuverlässigkeit
Sicherheit (safety)
Schutz (security)
Was versteht man unter Gefahrenvermeidung
Das System ist so konzipiert, dass bestimmte Arten von Gefahren gar nicht erst auftreten können
Was versteht man unter Gefahrenerkennung und –beseitigung
Das System ist so konzipiert, dass Gefahren erkannt und beseitigt werden, bevor sie zu einem Unfall führen können
Was versteht man unter Schadensbegrenzung
Das System verfügt über Schutzfunktionen, die den durch einen Unfall verursachten Schaden minimieren
Was ist der Unterschied zwischen Produktentstehungsprozess und Produktlebenszyklus
Produktentstehungsprozess
strukturierter und koordinierter Geschäfts- und Entwicklungsprozess, der die gesamte Lebensdauer eines Produkts von
der initialen Idee und Konzeptentwicklung
über Entwicklung und Fertigung
bis zum Vertrieb
Produktlebenszyklus
Berücksichtigung von kompletter Nutzungsphase und Recyclingphase
Was sind die Phasen des Produktentstehungsprozess
Konzeptphase
Festlegung der Produktelemente: Funktionen, Komponenten, Design
Entwicklungsphase
Ausarbeitung detaillierter Spezifikationen, Entwurf der Systemarchitektur, Detailentwurf, Implementierung, Integration, Test&Validierung (V-Modell)
Vorserienphase und Serienphase
Definition und Erprobung Produktionsprozesse, Produktion, Qualitätssicherung
Wie wird die Zuverlässigkeit in die Konzeptphase mit einbezogen
Aktivitäten
Definition der Anforderungen
Erstellung von Konzeptvarianten
Berücksichtigung von Aspekten der Zuverlässigkeit
1. Formulierung von Zuverlässigkeitszielen
2. Berücksichtigung von Normen und Sicherheitsstandards
3. Analyse potenzieller Risiken und Fehlerquellen
4. Festlegung von Redundanz- und Sicherheitsstrategien
5. Abschätzung des Lebenszyklus
Was sind die Zuverlässigkeitsziele in der Konzeptphase
Minimierung der Anzahl ungeplanter Ausfälle
Erreichen einer definierten Nutzungsdauer
Erreichen eines bestimmten Verhältnisses von Betriebs- zu Gesamtzeit
Einhaltung einer maximalen Ausfallrate
hohe MTBF/MTTF (mean time between failures / mean time to failure) hohe MTTR /mean time to repair)
Fehlertoleranz und Robustheit
Sicherheit im Fehlerfall
geplante Verschleiß- oder Alterungsprozesse
Welche Zuverlässigkeitsanforderungen gibt es in der Konzeptphase
Messbarkeit
Zuverlässigkeitskennzahlen als Wahrscheinlichkeitsaussagen formulieren, die während der Produktentwicklungsphase durch Tests oder Analysen ermittelt werden können
Beschreibung Nutzung und Betriebsumgebung
Berücksichtigung Kundengebrauch und Betriebsumgebung durch Verwendung von konstanten Werten, Grenzwerten, Verteilungen, zeitabhängiger Profile
Zeitangaben zur Nutzungsdauer
Definition "Produktversagen"
Angabe von Konfidenzniveaus zwecks Berücksichtigung der Variabilität der Daten im Vergleich zur Spezifikation
Wie kann MTTF definiert werden
kein Ausfall vor x Einheiten
bei x Einheiten Ausfall von 50% der Produktpopulation
Mittelwert nicht gleich Median (50%-Perzentil)
50%-Perzentil gleich Mittelwert nur bei symmetrischen Verteilungen
MTBF wird häufig anstelle von MTTF verwendet. MTTF und MTBF sind nur bei einer konstanten Ausfallrate (Annahme einer exponentiellen Verteilung) identisch.
Verwendung von MTBF bei reparierbaren Systemen
bei nicht-reparierbaren Systemen MTTF (Ermittlung des Mittelwerts der ersten Ausfallzeitpunkts)daher besser MTTF Erwartungswert der Lebensdauer einer Einheit
Was versteht man unter funktionaler Sicherheit
Fähigkeit eines elektrischen, elektronischen, programmierbar elektronischen Systems, beim Auftreten systematischer Ausfälle sowie zufälliger Hardwareausfälle mit gefahrbringender Wirkung, einen wohl definierten sicheren Zustand einzunehmen bzw. in einem sicheren Zustand zu verharren
Was versteht man unter Sicherheitsfunktion bzw. Funktionale Sicherheitsanforderung
Funktion eines sicherheitsbezogenen Systems, um im Gefahrfall einen Zustand mit tolerierbarem Restrisiko einzunehmen / aufrecht zu erhalten
Was versteht man unter Sicherheitsintegrität
Wahrscheinlichkeit, dass ein sicherheitsbezogenes System die geforderten Sicherheitsfunktionen unter allen festgelegten Bedingungen innerhalb eines festgelegten Zeitraums anforderungsgemäß ausführt
Was versteht man unter Sicherheits-Integritätslevel (A)SIL
vier diskrete Stufen zur Festlegung von Anforderungen für die Sicherheitsintegrität der Sicherheitsfunktionen
Was versteht man unter funktionale Sicherheit mit dem "fail-safe"-Prinzip
System geht bei einem Fehler automatisch in einen definierten sicheren Zustand über
Zustand ist oft ein Stillstand oder eine einfache, nicht-gefährliche Aktion, die keine externe Energie benötigt
Was versteht man unter funktionale Sicherheit mit dem "operational"-Prinzip
System, das auch nach einem Fehler weiterhin seine Grundfunktion ausführen kann
Wie sieht das Grundprinizp der Risikominimierung aus
Was erfordert funktionale Sicherheit
Identifikation der Gefahrenquellen
eine Beurteilung der Gefährdung die Quantifizierung der Ausfallwahrscheinlichkeit der Komponenten
die Risikominderung durch eine Implementierung einer geeigneten Sicherheitsfunktion (SF) mit ausreichend Integrität durch aktive Vermeidung systematischer Fehler im Entwicklungsprozess
Was versteht man unter Risikoanalyse
Identifikation und Bewertung von Risiken, welche die Sicherheit des technischen Systems beeinflussen oder beeinflussen können
Vermeidung von Personenschäden
Vermeidung von Umweltschäden und Schäden an Sachgütern
Vermeidung von Schäden in Image und Reputation, welche durch Fehler bzw. Störfälle an Produkten und Anlagen hervorgerufen werden können
Erhöhung der Verfügbarkeit und Wirtschaftlichkeit von Systemen, Geräten, Prozessen
und Abläufen
Erkennung von Schwachstellen und Festlegung von Verbesserungsmaßnahmen
Gestaltung der Systemarchitektur, dass kritische Ausfälle möglichst vermieden oder abgesichert werden
Systematische Auswertung verfügbarer Informationen, um Gefährdungen und damit verbundene Risiken zu identifizieren und hinsichtlich ihrer Größe (d. h. in Hinblick auf Eintrittwahrscheinlichkeit und Schadensausmaß) einzuschätzen
Was versteht man unter Risikobewertung
Vergleich des Risikos mit vorgegebenen Grenzwerten
Was versteht man unter Risikobeurteilung
Sammelbegriff für die Risikoanalyse und die Risikobewertung
Was versteht man unter Risikoidentifikation
interne Analysen: durch Überprüfung interner Prozesse, Abläufe und historischen Daten werden potenzielle Risiken aufgedeckt
externe Quellen: Analyse externer Berichte, Marktstudien und Branchenvergleiche
Ursachenanalyse: Untersuchung der Ursachen und Bedingungen, die zur Entstehung der identifizierten Risiken führen können
Szenario-Analyse: Entwicklung und Bewertung von verschiedenen Szenarien, um die potenziellen Auswirkungen der identifizierten Risiken zu verstehen
Wahrscheinlichkeits- und Auswirkungsanalyse: Bestimmung der Wahrscheinlichkeit, mit der jedes Risiko eintreten könnte, sowie der potenziellen Auswirkungen auf das Unternehmen
Risikomatrix: Erstellung einer Risikomatrix, um die Risiken nach ihrer Eintrittswahrscheinlichkeit und ihren potenziellen Auswirkungen zu priorisieren
Kostenschätzung: Quantifizierung der potenziellen finanziellen Auswirkungen jedes Risikos, um die wirtschaftliche Bedeutung besser zu verstehen
Risikotoleranz: Festlegung der Risikotoleranz des Unternehmens, um zu bestimmen, welche Risiken akzeptabel sind und welche Maßnahmen erfordern
Was versteht man unter Risikobewältigung
Risikovermeidung: Strategien entwickeln, um bestimmte Risiken komplett zu vermeiden, beispielsweise durch Änderung von Geschäftsprozessen oder –strategien
Risikominderung: Maßnahmen ergreifen, um die Eintrittswahrscheinlichkeit oder die Auswirkungen der Risiken zu reduzieren, wie z.B. durch zusätzliche Sicherheitsmaßnahmen oder Schulungen
Welche Methoden und Techniken kann man für die Risikoanalyse nutzen
SzenarioanalyseVerwendung verschiedener möglicher Szenarien, um die Auswirkungen potenzieller Risiken zu verstehen
Best-Case-Szenariodie positiven Entwicklungen und ihre Auswirkungen auf das Unternehmen untersucht.
Worst-Case-Szenariowird entwickelt, um die schwerwiegenden negativen Auswirkungen zu erfassen und darauf vorbereitet zu sein
Simulationen
Fehlerbaumanalyse
FMEA – Fehlermöglichkeits- und EinflussanalyseBerücksichtigung der Entdeckungswahrscheinlichkeit in Ergänzung zur Eintrittswahrscheinlichkeit und der Bedeutung aus Kundensicht
Welche Sicherheitsstrategien gibt es in der Konzeptentwicklung
Vermeidungsstrategie
Konzipierung einer inhärent sichere Gestaltung
Schutzstrategie
Konzipierung einer Absicherung durch technische Einrichtungen
Informations- und Organisationsstrategie
Restrisiken minimieren, die nicht konstruktiv oder technisch beherrschbar sind
Was sind die Grundlagen der Analyse
Experimente:
Grundgesamtheit
Strichproben
Was versteht man unter technischer Zuverlässigkeit
Zuverlässigkeit ist die Wahrscheinlichkeit dafür, dass eine Einheit während einer definierten Zeitdauer unter gegebenen Funktions- und Umgebungsbedingungen nicht ausfällt.
Beschaffenheit einer Einheit bezüglich ihrer Eignung, während oder nach vorgegebenen Zeitspannen bei vorgegebenen Anwendungsbedingungen die Zuverlässigkeitsforderungen zu erfüllen.
Zuverlässigkeit ist die Wahrscheinlichkeit dafür, dass eine Einheit während eines definierten Zeitintervalls oder eines Intervalls bezogen auf eine zeitkorrelierende Lebensdauervariable unter gegebenen Funktions- und Umgebungsbedingungen hinsichtlich ihrer funktions- und sicherheitskritischen Merkmale nicht ausfällt.
bezieht sich auf Lebensdauervariable Zeit
fokussiert den ausfallfreien Betrieb
quantifiziert
erlaubt Vergleichbarkeit
Wie kann die technische Zuverlässigkeit eines Produkts bestimmt werden
Wie bestimmt man die Ausfallrate
Wie bestimmt man die mittlere Lebensdauer
Welche empirischen Zuverlässigkeitsgrößen gibt es
gegeben
Anzahl Einheiten in der Grundgesamtheit = n
Anzahl ausgefallener Einheiten =n_a
empirische Überlebenswahrscheinlichkeit
Ausfallratenn
Anzahl der in einem Zeitintervall dt ausgefallenen Einheiten dn_a, bezogen auf die zu Beginn des Zeitintervalls noch funktionsfähigen Einheiten n_b
Was ist die Varianz und Standardabweichung
Varianz die quadrierte durchschnittliche Abweichung vom Mittelwert ist
Was ist der Variationskoeffizient
relatives Streuungsmaß, das die Streuung von Daten in Bezug auf ihren Mittelwert angibtberechnet durch Division der Standardabweichung durch den Mittelwert
Was sind Perzentile
statistische Maßzahlen, die eine nach Größe sortierte Datenmenge in 100 gleich große Teile zerlegenein Perzentil gibt an, wie viel Prozent der Datenwerte unter- oder oberhalb eines bestimmten Wertes liegenhelfen, Daten zu klassifizieren und Bereiche zu definieren
Was ist der Interquartilsabstand
Differenz zwischen dem 75%-Quartil und dem 25%-Quartil eines Datensatzes und misst die Streuung der mittleren 50% der Daten
Was ist Schiefe (Skewness)
beschreibt die Symmetrie einer Verteilung
Was ist Kurtosis (Wölbung)
beschreibt die Steilheit des Gipfels einer Verteilung im Vergleich zur Normalverteilung
Wie werden Experimentergebnisse mittels deskriptiver Statistik dargestellt
Mean, Median and Modal
Variance
Standard Deviation
Coefficient of Variation
Percentiles
Interquartile Range
Skewness and Kurtosis
Histogram
Frequency Distribution
Was ist das Histrogramm/Häufigkeitsverteilung
grafische Darstellung von Daten, die die Häufigkeitsverteilung von Werten zeigt, indem die Daten in Klassen eingeteilt und durch Rechtecke visualisiert werdenzeigt eine zusammengefasste Gruppierung von Daten, die in sich gegenseitig ausschließende Klassen unterteilt sind, sowie die Anzahl der Vorkommen in einer Klasse
Was ist die kumulierte Darstellung
ergibt sich aus dem Histogramm
Was ist die Wahrscheinlichkeit
Zufallsexperiment mit bekannten Ergebnissen
Zuordnung von Wahrscheinlichkeiten zu Ereignissen
Axiome von Kolmogorov
Was ist die Probalistik
Bedingtes Eintreten von Ereignissen
Wie kann ein Mehrstufiges Zufallsexperiment dargestellt werden
in Ereignisbäumen
Wie kann beim Mehrstifige Zufallsexperiment die Wahrscheinlichkeit bestimmt werden
Was ist das Verteilungsmodell
Was ist die Normalverteilung
Was ist die Fehlerbaumanalyse
Fehlerbaumanalyse (Fault Tree Analysis – FTA) ist eine Art der Systemanalyse von technischen Systemen
basiert auf der booleschen Algebra, um die Wahrscheinlichkeit eines Ausfalls, einer Anlage oder eines Gesamtsystems zu bestimmen
ist je nach Anwendungsbereich in verschiedenen Bereichen standardisiert, z.B. als internationaler Standard IEC 61025 (EN 61025)
Was sind Bestandteile der Boolschen Algebra
Was sind die Schritte der Fehlerbaumanalyse
Zerlegung
aus den Systemkomponenten, deren Eigenschaften eher bekannt sind, lässt sich über deren funktionelle und logische Verknüpfung das Gesamtsystem modellieren und analysieren
Ausgangspunkt ist ein definierter Systemzustand, der weiter "top down" (von oben nach unten) über Zwischenzustände bis zu Basisereignissen (Komponentenausfälle) aufgeschlüsselt wird
Ziele
systematische Identifizierung möglicher Ausfallkombinationen und dahinterliegender Basisereignisse, die zu einem vorgegebenen "top-event" führen können
zusätzliche Ermittlung der Eintrittswahrscheinlichkeit von Ausfallkombinationen und des "topevent", nach Zuweisung von Zuverlässigkeitskenngrößen für Basisereignisse (Ausfallwahrscheinlichkeit)
Abstraktion
technisches System, bestehend aus Bauteilen und Baugruppen
Ausfallarten
Primärer Ausfall —> Inhärente Ausfallursache (Fertigungsfehler)
Sekundärer Ausfall —> Betrieb (Alterung)
Kommandierter Ausfall —> falsche Nutzung (Ansteuerung)
Wie ist ein Fehlerbaum aufgebaut
Welche Arten von Ereignissen gibt es im Fehlerbaum
Grundereignis: ein Ereignis in der untersten Ebene, für das Angaben zur Eintrittswahrscheinlichkeit oder Zuverlässigkeit vorliegen (qualitativ oder quantitativ)
Bedingtes Ereignis: Ereignis unter der Bedingung des Eintretens eines anderen Ereignisses und der Bedingung, dass beide eintreten müssen, damit das Ausgabeergebnis eintritt
Schlafendes Ereignis: Primärereignis, das einen „schlafenden“ Ausfall darstellt
Wie entsteht ein Fehlerbaum
Das unerwünschte Ereignis (TOP-Event) wird festgelegt.
Ist dieses Ereignis bereits eine Ausfallart einer Komponente so wird die Vorgehensweise mit Schritt 4 fortgesetzt. Ansonsten folgt die Ermittlung aller Ausfälle, die zu dem unerwünschten Ereignis führen.
Diese Ausfälle werden in den Fehlerbaum eingetragen und entsprechend mit Hilfe der Fehlerbaumsymbolik logisch verknüpft. Stellen die Ausfälle eine Ausfallart dar, so wird die Bearbeitung mit Schritt 4 fortgesetzt, andernfalls wird wieder mit Schritt 2 begonnen.
Häufig sind die einzelnen Ausfälle durch eine ODER-Verknüpfung verbunden, da jedes Eingangsereignis das Ereignis am Ausgang hervorruft. Diese Eingänge sind dabei dann mit Primärausfall, Sekundärausfall und Kommandoausfall belegt.
Primärausfälle können mit Hilfe der Fehlerbaumanalyse nicht weiter untersucht werden und stellen damit einen Standardeingang des Systems dar.
Sekundärausfälle und Kommandoausfälle müssen nicht unbedingt vorhanden sein. Liegen sie allerdings vor und ist der Ausfall kein Funktionselementausfall, so wird dieser Ausfall noch weiter untergliedert (Schritt 2).
Beendigung
die Merkmale eines unabhängigen Ereignisses können auf eine andere Art als durch den Fehlerbaum beschrieben werden
Die Ereignisse müssen nach Meinung des Anwenders und des Bauteilexperten nicht mehr weiter untersucht werden die Ereignisse wurden bereits in einem anderen Fehlerbaum untersucht
Welche Ereignisverknüpfungen gibt es in der Fehlerbaumanalyse
Was sind Zuverlässigkeitskenngrößen
ZKG sind quantitative Merkmale, die das mit Versagen zusammenhängende stochastische Verhalten einer Einheit (Hard-, Software etc.) technischer Systeme unter bekannten Leistungsbedingungen kennzeichnen
allgemeiner Datenmangel; besonders ausgeprägt bei Zuverlässigkeitskenngrößen für hochzuverlässige Spezialanfertigungen in der Kernenergie, für Komponenten unter
Was sind die Vorraussetzung für die Modellierung des Fehlerbaums
Annahmen/Voraussetzungen:
technische System besteht aus Betrachtungseinheiten BE (Komponenten)
die BE sind sowohl technisch als auch logisch untereinander verbunden
jede BE kann nur zwei Zustände annehmen (binäre Logik)
logische Operatoren zur Verknüpfung der Zustände
Bezeichnungen
Überlebenswahrscheinlichkeit der i-ten Einheit = pi
Ausfallwahrscheinlichkeit der i-ten Einheit = qi
Wie sind die Symboliken im Fehlerbaum
Wie kann die Wahrscheinlichkeit im Fehlerbaum berechnet werden
Wie können komplexe Systeme im Fehlerbaum bestimmt werden
Welche Vor- und Nachteile der Fehlerbaumanalyse gibt es
Was sind die Ziele des Ereignissbaums
Erfassen der Ereignisabläufe in einem System, die nach einem auslösenden Ereignis durch die Reaktion nachfolgender (sicherheitstechnischer) Subsysteme entstehen können:
graphische Darstellung des logischen und physikalischen Ineinandergreifens aufeinanderfolgender Ereignisse in einem System
Ermittlung von Systemendzuständen, die aus einer bestimmten Ursache folgen
Berechnung der Eintrittshäufigkeiten resultierender Systemendzustände
Wie ist der Ereignisbaum aufgebaut
Wie entsteht ein Ereignisbaum
1. Auflisten aller auslösenden Ereignisse
2. Identifizierung der direkten funktionellen Systemantworten, die jeweils durch die Funktion oder Nichtfunktion eines Subsystems bzw. Eintreten oder Nichteintreten von Ereignissen entstehen
3. Zusammenfügen der auslösenden Ereignisse mit allen Systemantworten
4. Bestimmung von Ereignisketten: jede Systemantwort hat eine zugehörige Verzweigung, die Erfolg oder Misserfolg anzeigt. Am Ende jeder Kette steht eine Beschreibung der erwarteten Auswirkungen auf das System
5. Zuweisung von Eintrittshäufigkeit [a -1 ] für das auslösende Ereignis und „bedingten“ Wahrscheinlichkeiten für Funktion/Ausfall
6. Berechnung der Eintrittshäufigkeit der Endzustände des Gesamtsystems
Können Ereignisbäume und Fehlerbäume kombiniert werden
Was ist der Unterschied zwischen der Fehlerbaumanalyse und der Ereignisbaumanalyse
deduktive Logik („Abwärtslogik“)
statische Betrachtungsweise
eine einzelne Kette von Ereignissen vom "top-event" zu einem Basisereignis hat keine offensichtliche technische Bedeutung (nur Subfehlerbäume)
Ereignisbaumanalyse
induktive Logik („Vorwärtslogik“)
Berücksichtigung dynamischer Prozesse begrenzt möglich
jedes Ereignis auf der Kette vom auslösenden Ereignis bis zum Systemendzustand hat eine systemtechnische Bedeutung
Was bedeutet die Abkürzung FMEA
Was ist eine FMEA
Methode zur systematischen Entdeckung von möglichen Risiken bei der Entwicklung von Produkten und Planung von Produktionsprozessen
induktive Systemanalysemethode, um mögliche Fehler und deren Ursachen während der Entwicklung eines Produkts zu erkennen, zu dokumentieren und zu verhindern.
Stand der Technik in der Absicherung der Zuverlässigkeit bei der Entwicklung und Herstellung technisch komplexer Produkte
Fokus:Erkennung und Bewertung von Fehlern, Fehlerursachen und Fehlerfolgen
keine Nutzung von Methoden der technischen Statistik, es werden lediglich statistische Kennzahlen zur Bewertung der potenziellen Fehler ermittelt
Wie grenzt sich die FMEA von der FTA ab
FTA
Analyse des Fehlersymptoms auf Gesamtproduktebene im Hinblick auf mögliche Schadensursachen
FMEA
Analyse der potenziellen Fehlerursache im Bauteil und die Wirkung auf das Gesamtprodukt
Welche Ziele hat die FMEA
methodisches Instrument der frühzeitigen Fehlererkennung
entwicklungsbegleitende System- und Risikoanalyse
führt zu geeigneten Maßnahmen, um
ein System zu optimieren
Risiken zu minimieren
protokollierte Wissensbasis, mit der laufende und künftige Entwicklungsprojekte effizient unterstützt werden
fördert aufgrund der Strukturierung den Kommunikationsfluss in der Team- und Projektarbeit
Welche Typen der FMEA gibt es
System-FMEA (S-FMEA)
Analyse des Zusammenwirkens der Komponenten im Rahmen der Konzeptphase der Produktentwicklung
Analyse eines Konzepts vor Entwicklungsbeginn
Analyse der Gesamtfunktionen
Untersuchung von Wechselwirkungen
Ziel
Sicherstellung eines fehlerfreien Gesamtkonzepts
Konstruktions-FMEA (K-FMEA)
Analyse von Fehlerursachen-Wirkungsketten bei Bauteilen beziehungsweise Baugruppen hinsichtlich Konstruktion und Auslegung
Analyse von Einzelteilen vor Konstruktion
Analyse von Einzelteilfunktionen
Sicherstellung einer möglichst genauen Spezifikation als Kommunikations- und Leistungsbasis
Sicherstellung fehlerfrei konzipierter/ausgelegter Systemkomponenten
Prozess-FMEA (P-FMEA)
Analyse potenzieller Fehler (Fehlerursachen-Wirkungsketten) bei einzelnen Prozessschritten eines Produktionsprozesses im Rahmen der Serienvorbereitung (Produktionsplanung)
Analyse der Fertigungsprozessschritte
Sicherstellung eines am Prozessbedarf orientierten Einsatzes von Ressourcen
Sicherstellung eines fehlerfrei gefertigten Produktes
Was sind die Schritte der FMEA
1. Systemanalyse – Definition der Systemelemente
2. Festlegung der Funktionen und Funktionsstrukturen
3. Fehleranalyse (FehlerursacheFehler-Fehlerfolge)
4. Risikoanalyse
5. Definition Maßnahmen und Umsetzung Optimierungen
Was sind die Ziele der Systemanalyse der FMEA und welche Werkzeuge werden verwendet
Ziel: Visualisierung der Konstruktions- oder Prozessstruktur, Analyse von Hierarchien, Systemgrenzen und Interaktion von Komponenten oder Prozessschritten
Unterteilung des Systems in seine Systemelemente Erfassung als eine hierarchische Struktur
Ermittlung der Schnittstellen der Systemelemente, so dass Systeme mit vielen Wechselwirkungen verständlich werden
Werkzeuge
K-FMEA: Strukturbaum, Block-/Grenzdiagramm, digitales Modell oder physische Komponenten
P-FMEA: Strukturbaum, Prozessablaufdiagramm
Wie sieht bei der Systemanalyse der FMEA der Strukturbaum aus
Hierarchische Struktur
Baum stellt das Gesamtsystem an der obersten
Ebene dar, von dem sich die einzelnen Unter- und Bestandteile hierarchisch nach unten verzweigen
Detaillierungsgradabhängig vom spezifischen Projekt ab
Wechselwirkungen
Berücksichtigung von Schnittstellen und
Wechselwirkungen zwischen den Elementen
es gibt immer mehrere Darstellungen
Wie sieht das Blockdiagramm bei der Systemanalyse der FMEA aus
Wofür wird das Boundary Diagramm bei der Systemanalyse benötigt
Darstellung der Systemgrenzen
und damit der Systemdefinition
stellt die Schnittstellen sowie
die innewohnenden Subsysteme
und Komponenten eines Systemsin Form eines Blockdiagramms
Was sind die Zielsetzungen und die Klassifikationen von Schnittstellen beim Boundary-Diagramm
Zielsetzung
abstrahiert ein vorhandenes System
konkretisiert eine Systemidee
Klassifikation von Schnittstellen
physikalisch-technisch (Energie, Stoff, Signal,...)
Wirkrichtung
funktional
Wie ist das Vorgehen beim Boundary Diagramm
Vorgehensweise
Festlegung der Systemgrenzen
Ermittlung der externen Schnittstellen zur Umgebung und zu Nachbarsystemen
Berücksichtigung der verschiedenen Betriebszustände im kompletten Lebenszyklus
Unterscheidung nach Stoff, Energie und Signal
Berührung/Kontakt ist Sonderfall der Energie-Schnittstelle
Ggf. funktionale Bewertung: nützlich/schädlich/neutral
Beschreibung der Funktionen an den Schnittstellen
Erstellung der inneren Systemstruktur
Ermittlung der internen Schnittstellen
Was ist die Funktionsermittlung bei der FMEA und welche Werkzeuge werden verwendet
Analyse jedes Systemelement hinsichtlich seiner Funktionalität und FehlfunktionenIdentifizierung von Fehlern, grafische Darstellung ihres Weges vom Eingang zum Ergebnis
Informationen über die Nutzungsumgebung wichtig (Temperatur, Staub, Wasser oder elektrische Störungen)
K-FMEA: Funktionsbaum/Funktionsnetzwerk
P-FMEA: Funktionsbaum/Funktionsnetzwerk, Prozessablaufdiagramm
Welches Ziel hat die Funktionsermittlung bei der FMEA
detaillierte grafisch Darstellung der Funktion (Visualisierung)
Erstellen eines Funktionsbaums / Funktionsnetzes sowie eines Funktionsanalyse-Formblatts und Parameterdiagramms (K-FMEA) beziehungsweise Prozessflussdiagramms (P-FMEA)
detaillierte Abstufung der externen und internen Kundenfunktionen und ihrer Anforderungen in der Analyse
Verknüpfung der definierten Anforderungen und Merkmalen
Festlegung der konkreten Zusammenarbeit der Entwicklungsteams
dabei wird unterschieden
funktionale Anforderungen
nicht-funktionale Anforderungen
Wie sieht ein Funktionsbaum bei der FMEA aus
Wie sieht ein Parameterdiagramm bei der Funktionenermittlung der FMEA aus
Parameterdiagramm
Funktion als Transformation darstellen, das aus den drei Zugängen Eingangsgröße, Störgröße und Lenkungsgröße die gewollten und ungewollten Ausgangsgrößen generiert
Welche Größen gibt es bei der Funktionenermittlung der FMEA
Eingangsgrößen
kontrolliert zugeführte Größenmüssen aus einer darunter liegenden Ebene zugeführt werden, um die physikalische Abfolge von Ursache und Wirkung abzubilden
Störgrößen
Größen aus den gleichen Kategorien wie die Eingangsgrößen, aber nicht kontrollierbar
Zielgrößen
Ergebnisse der Transformation, wiederum in Kategorien wie für Eingangs- und Störgrößen
Lenkungsgrößen
Größen, mit denen aus einem Soll-Ist-Wert-Vergleich in die Transformation eingegriffen wird
Was wird bei der Fehleranalyse gemacht
Analyse von
Ausfall/FehlfunktionErmittlung aller möglichen Ausfälle des betrachteten Systemelementslassen sich aus der Funktion des Systemelements ableiten
Ausfallergebnis
Ergebnisse eines Ausfalls sind die Ausfälle in übergeordneten oder zugehörigen Systemelementen.
Fehlerursache
Ursachen für Fehler vielfach Fehlfunktionen in untergeordneten/verbundenen Elementen
Fragetechniken wie 5-Whys oder Ishikawas Ursache-Wirkungs-Diagramm
Wie ist das Vorgehen bei der Fehleranalyse der FMEA
1. Identifikation der Fehlerartenalle möglichen Fehlerarten, diebei einem bestimmten Elementauftreten können, identifizieren
2. Analyse der FehlerursachenErmittlung der zugrunde liegenden Ursachen
3. Bewertung der FehlerfolgenBewertung, welche Auswirkungen die identifizierten Fehler haben könnten
Fehlernetz aus Fehlerbeschreibung, Fehlerursachen und Fehlerfolgen
4. Dokumentation
Was ist das Ischikawa Diagramm bei der Fehleranalyse der FMEA
Ishikawa-Diagramm (Ursache-Wirkungs-Diagramm)
systematische Findung von Ursachen eines aufgetretenen oder potenziellen Problems (Wirkung) in Kategorien
Kausalitäten werden in Form eines Fischgrätendiagramms dargestellt
Ergebnis der Analyse sind Maßnahmen zur Lösung oder Vermeidung des Problems
Kategorien
Material, Maschine, Methode, Mensch und Mitwelt (Umgebungsbedingungen)
oft: Management, Messung und Prozesse
Zuordnung von Ursachen zu den Kategorien
Klassifizierung / Plausibilisierung des Einflusses der einzelnen Ursachen und Priorisierung
Wie kann das Ergebnis der Fehleranalyse bei der FMEA aussehen
Was ist die Risikoanalyse bei der FMEA
die identifizierten potenziellen Fehlerarten werden hinsichtlich ihres Risikos bewertet
Fokussierung auf diejenigen Fehlermodi, die das größte Risikopotenzial aufweisen
Berücksichtigung verschiedener Kriterien
Schwere der Auswirkungen / Bedeutung der Fehlerfolge
Wahrscheinlichkeit des Auftretens der Fehlerursache
Möglichkeit der Erkennung der aufgetretenen Fehlerursache
Quantifizierung (z.B. 10 = hoch, 1 = gering)
Bewertungszahl B für die Bedeutung der Fehlerfolgen für das Gesamtsystembetrachtet wird
die Auswirkung auf Nutzer (interner und externer Nutzer, „worst case“)
muss für alle Fehlerursachen, die zu der gleichen Fehlerfolge führen, gleich sein
B = 10 falls sicherheitsrelevante oder gesetzliche Vorgaben verletzt werdenB = 1 falls Fehlerfolge keine Auswirkungen für die Funktionalität hat
Was sind die Kriterien für die Risikoanalyse
Kriterien der Auswirkung/Bedeutung(gem. VDA FMEA-Handbuch)
Sicherheit
Gesetze
Hauptfunktion
Komfortfunktion
Erscheinungsbild, Klang, Vibrationoder Haptik
Wie wird das Auftreten bei der Risikoanalyse bewertet und wie sind die Kriterien
Auftreten A bewertet, wie häufig die Fehlerursache auftritt, und berücksichtigtalle wirksamen Vermeidungsmaßnahmen
A = 10 falls es nahezu sicher ist, dass eine Fehlerursache auftritt
A = 1 falls es unwahrscheinlich ist, dass eine Fehlerursache auftritt
analog: Bewertung der Entdeckung der Fehlerursache
Kritierien des
Auftretens
Initialeinstufung
Neuigkeitsgrad
Einsatzerfahrung
Betriebsbedingungen
Konstruktive Maßnahmen
Richtlinien/Normen
Wirksamkeit Vermeidung
Verifizierung
Welche Vermeidungsmaßnahmen gibt es bei der Risikoanalyse
Berücksichtigung bei Bewertung A
verhindern bzw. minimieren das Auftreten der Fehlerursache
sind Gradmesser für die Robustheit der Konstruktion bzw. des Prozesses
z.B. Design/Konstruktions-FMEAkonstruktive Maßnahmen, die das Auftreten von Fehlerursachen in der Entwicklungsphase minimieren bzw. zur Erreichung der technischen Zuverlässigkeit dienen
Was sind die Entdeckungsmaßnahmen und Kriterien bei der Risikoanalyse der FMEA
Berücksichtigung bei Bewertung E
dienen der Entdeckung von Fehlern, die trotz aller Vermeidungsmaßnahmen auftreten
z.B. Design/Konstruktions-FMEA
Entdeckungsmaßnahmen während der EntwicklungEntdeckungsmaßnahmen durch das Produkt (System) selbst oder durch den Nutzer (interner und externer Kunde)
entsprechend der Wirksamkeit von ausgeführten Entdeckungsmaßnahmen für die betrachteten Fehlerursachen wird eine Bewertung für die Entdeckung vergeben
Kritierien der
Entdeckung
Entdeckungsfähigkeit
Reifegrad der Entdeckungsmethode
Entdeckungsmöglichkeit
Für welche Risiken kann die Risikoanalyse verwendet werden
Gesamtbewertung von Risiken nach der Aufgabenpriorität oder der Risikoprioritätszahl (RPZ) kann für verschiedene Arten von Risiken angewendet werden
technische Risiken
Risiken, die mit der Technologie oder den technischen Prozessen zusammenhängen, wie z.B. Ausfälle von Maschinen oder Systemen, Stromausfälle, Datenverluste oder Cyberangriffe
finanzielle Risiken
Risiken, die sich auf die Finanzen des Unternehmens auswirken können, wie z.B. Wechselkursschwankungen, Marktschwankungen, Zahlungsausfälle oder Betrug.
Sicherheitsrisiken
Dies bezieht sich auf Risiken, die die Sicherheit von Mitarbeitern oder Kunden gefährden können, wie z.B. Unfälle am Arbeitsplatz, Einbrüche, Diebstähle oder Terroranschläge
Wie berechnet sich die Risikoprioritätszahl
eine Risikoprioritätszahl berechnet sich als Produkt aus den drei Größen B, A und Eaber
die RPZ quantifiziert das Risiko nicht konform zur ISO-Definition
die RPZ kann zusätzlichen Aufwand verursachen
Illusion einer Genauigkeit
Wie wird bei der Risikoanalyse das Auftreten und die Entdeckung bewertet
Warum braucht man eine Software FMEA
zentraler Ansatz von FMEA
Bewertung von Entscheidungen
➢ KlassifizierungKonstruktion-/Design-FMEA und/oder Prozess-FMEA
➢ Entscheidungen bei der Entwicklung von Software sind vergleichbar mit der Entscheidung für/gegen Wahl von Bauteilen
➢ zur Absicherung diverser Entscheidungen ist eine FMEA für Software genauso sinnvoll wie in der Mechanik
Welche Betrachtungspunkte gibt es bei der Software FMEA
typische Analyseobjekte sind
Anforderungen / Lastenheft
Architekturmodule
Schnittstellen
Algorithmen
Datenflüsse
Fehlbedienung oder unvorhergesehene Eingabekombinationen
Wie ist das Vorgehen bei der Software FMEA
1. Ziel und Umfang definieren
welche Komponenten, Schnittstellen, Betriebsmodi
Unterlagen
▪ Anforderungen
▪ Use-Cases
▪ Aktivitätsdiagramme
▪ Sequenzdiagramme
▪ Deployment-Diagramme
2. Funktionen erfassen
Aufstellung der Funktionen der Komponenten
3. Identifizierung von Fehlern
Wie kann eine Funktion fehlschlagen?
▪ falsche Ausgabe, Ausfall, Verzögerung, falscher Zustand
▪ Incident-Logs, Bug-Tracker, Lessons-Learned, Ergebnis von Reviews und Tests
Beschränkung auf die hauptsächlichen Architekturentscheidungenandere Fehlerquellen über Architektur- und Codierrichtlinien eliminieren
4. Ursachen analysieren
für jede Fehlerart mögliche Ursachen auflisten
▪ fehlerhafte Anforderung
▪ Race-Condition, Null-Pointer
▪ unzureichende Validierung, Kommunikationsverlust
zwischen Entwurfsfehlern, Implementierungsfehlern, Konfigurationsfehlern, Laufzeitbedingungen unterscheiden
5. Auswirkungen bewerten
Auswirkungen der Fehler auf System, übergeordnete Funktionen, Nutzer, Sicherheit oder Compliance
Beurteilung hinsichtlich Aspekte der Informationssicherheit
6. Risiko bewerten
mittels Kriterien A, B und E und passenden Skalen
alternativ: Risikomatrix
als Folge der Abschaffung der RPZ bei FMEAs im Automotive Bereich nach VDA – AIAG, erfolgt stattdessen die Einführung des Risk Matrix Rankings (RMR)
▪ verbesserte Identifizierung potenzieller Risiken
▪ proaktive Analyseermöglicht es Teams, potenzielle Fehlerarten zu identifizieren und zu beheben, bevor sie auftreten
▪ umfassende Risikobewertungdurch die Konzentration auf Schweregrad, Auftreten und Erkennung wird eine detaillierte Bewertung der Risiken im gesamten System oder Prozess gewährleistet
▪ gesteigertes Bewusstseinfördert die Zusammenarbeit zwischen den Beteiligten und trägt zu einem tieferen Verständnis potenzieller Schwachstellen und ihrer Auswirkungen bei
7. Gegenmaßnahmen ableiten
für hohe Prioritätenvermeidende Maßnahmen: Anforderungsüberarbeitung, Entwurfsänderung
detektive MaßnahmenUnit-Tests, statische Code-Analyse, Run-Time Checks
mindernde MaßnahmenFallback, Watchdog, Redundanz
8. Maßnahmen umsetzen
Implementierung und Reviews planen (Code-Review, Architektur-Review)
Tests ergänzen/erstellen
Unit, Integration, System, Fuzzing, Simulation von Fehlerszenarien
Warum braucht man eine entwurfsvereinfachung zur Zuverlässigkeitserhöhung
Welche drei Arten zur Entwurfsvereinfachung bei der Zuverlässigkeitserhöhung gibt es
Was ist die Unterbeanspruchung bei der Zuverlässigkeitserhöhung
Unterbeanspruchung
Ausfallraten steigen mit zunehmender Beanspruchung
Belastungsquotient
Verhältnis zwischen realer und Nennbelastung
Verringerung der Ausfallrate
▪ Reduzierung der realen Belastung
▪ Erhöhung der Nennbelastung
Maßnahmen
▪ Voralterung
Was ist die Redundanz bei der Zuverlässigkeitserhöhung
das „funktionsbereite Vorhandensein von mehr als für die vorgesehene Funktion notwendigen technischen Mitteln“
Was ist ein fehlertolerantes System bei der Redundanz
fehlertolerantes System
ein System ist fehlertolerant, wenn es trotz des Auftretens unvorhergesehener Fehler weiterhin in der Lage ist seine Funktionen korrekt auszuführen
Beispiel: 2-von-3-System
▪ ein Ausfall einer Komponente kann toleriert werden,ohne dass die Funktion beeinflusst wird
▪ bei einem Ausfall einer zweiten Komponente mussin einen sicheren Modus geschaltet werden
Welche Systeme werden bei der Redundanz unterschieden
mvn-Systeme
▪ Mehrheitsentscheidungssystemeeinfache Systeme und adaptive Systeme
▪ sicherer und zuverlässiger Betrieb
nvn-Systeme
▪ Abschaltung bereits bei einem abweichenden Ergebnis
▪ sicherer Betrieb
Wo kann Redundanz eingesetzt werden
Redundanz kann, muss aber nicht die Zuverlässigkeit verbessern
➢ Redundanz ist möglich in:
Hardware (strukturelle Redundanz)
Information
Zeit
Software (funktionelle Redundanz)
▪ Zusatzfunktion
▪ Diversität
Welche Typen von Redundanz gibt es
Strukturelle Redundanz
➢ Erweiterung eines Systems um zusätzliche (gleich- oder andersartige) für den Nutzbetrieb entbehrliche Komponenten
Funktionelle Redundanz
➢ Erweiterung eines Systems um zusätzlich für den Nutzbetrieb entbehrliche Funktionen
Informationsredundanz
➢ zusätzliche Informationen neben der Nutzinformation
Zeitredundanz
➢ über den Zeitbedarf des Normalbetriebs hinausgehende zusätzliche Zeit, die einem funktionell redundantem System zur Funktionsausführung zur Verfügung steht
Dynamische Redundanz
➢ Vorhandensein von redundanten Mitteln, die erst im Ausnahmebetrieb (d.h. nach Auftreten eines Fehlers) aktiviert werden, um zu den zu unterstützenden Funktionen beizutragen
➢ MerkmalPrimär- und Ersatzkomponenten statt paralleler Auslegung von Komponenten
➢ Aktivierungredundante Komponenten werden im Fehlerfall, nicht im Normalbetrieb, aktiviertBeispiel: Server im "Cold-Standby"-Modus, der nur dann in Betrieb genommen wird, wenn der primäre Server ausfällt
Statische Redundanz
➢ Vorhandensein von redundanten Mitteln, die während des gesamten Einsatzzeitraums aktiv zu den zu unterstützenden Funktionen beitragen
➢ Ausprägungen:
statische strukturelle Redundanz: z.B. n-von-m System
statische funktionelle Redundanz (Zusatzfunktionen): z.B. doppeltes Senden von Nachrichten auf unterschiedlichen Wegen
statische funktionelle Redundanz (Diversität): N-Versions-Programmierung
statische Informationsredundanz: fehlerkorrigierende Codes
statische Zeitredundanz: statische Mehrfachausführung einer Funktion
Was ist das mvn-System
Was ist das nvn-System
Was ist das Stand-by-System
Was ist die Beherrschung von Fehlern
Was sind gängige Prinizipien zur Beherrschung von Fehlern
Fail-Safe-Prinzip
System verträgt den Ausfall einzelner sicherheitsrelevanter Bauteile oder Teilsysteme, ohne dass es zu einem gefährlichen Zustand kommt
Safe-Life-Prinzip
in der Betriebsphase darf kein sicherheitsrelevantes Bauteil ausfallen, da sonst ein unerwünschter, gefährlicher Zustand eintritt
Was ist ein fehlertolerantes System
Welche Aufgabe hat die Fehlerdiagnose
Welche Testzwecke gibt es bei der Fehlerdiagnose
Fehlererkennung
Sind die Komponenten fehlerfrei?
➢ Fehlerlokalisierung
Welche Komponenten sind fehlerfrei? Übrige sind u.U. fehlerhaft.
▪ Genauigkeit
Möglichkeiten zur Fehlererfassung
Anforderungen der gewünschten Ausgrenzungsmaßnahmen
▪ Lokalisierungsbereich Lbi
Komponentenmenge
Test sagt für einen (vergangenen) Zeitpunkt t aus, ob alle Komponenten aus Lbifehlerfrei waren oder Fehler aus der Menge der zu tolerierenden Fehler aufgetreten sind
Lokalisierungsbereich
die Lokalisierungsbereiche müssen alle Fehlerbereiche überdecken
➢ Behandlungsbereich
Komponentenmenge, bei welcher ein Fehlerbehandlungsverfahren auf alle Komponenten stets die gleiche Operation anwendet
Behandlungsbereiche müssen alle Fehlerbereiche überdecken
Welche Sinnvollen einschränkungen gibt es bei der Fehlerdiagnose
jeder Behandlungsbereich ist Teilmenge eines FehlerbereichsFehlerbehandlung auf nicht zu viele Komponenten anwenden
➢ jeder Lokalisierungsbereich ist im Komplement des PerfektionskernsEntscheidung, in welchem Behandlungsbereich Fehler bearbeitet wird
➢ Behandlungsbereiche sollen möglichst wenig Komponenten des Perfektionskerns enthaltenjeder Behandlungsbereich soll in einem Einzelfehlerbereich enthalten seinzielgerichtete Behandlung
➢ jeder Lokalisierungsbereich umfasst einen Behandlungsbereichnicht genauer lokalisieren als behandelt werden kann
Welche Testmethoden gibt es bei der Fehlerdiagnose
Normalbetrieb: Fehlererkennung
häufig Folgefehler-Erkennung
Ausnahmebetrieb: Fehlerlokalisierung
Testmodus mit speziellen Testdaten und dafür spezifiziertem Soll-Verhalten
➢ Testarten
StrukturtestBasis: strukturelles Fehlermodell
Liegt die Soll-Struktur, bestehend aus fehlerfreien Komponenten und ihren Funktionszuordnungen vor?
Funktionstest
Basis: funktionelles FehlermodellWird die spezifizierte Soll-Funktion erbracht?
Wie kann bei der Fehlertoleranz in ein fehlerfreies System übergegangen werden
Rekonfiguration
Systemaufgaben werden neu verteilt, so dass die Funktion der ausgefallenen bzw. fehlerhaften Einheiten durch noch intakte Einheiten übernommen wird
Ausgliederung der fehlerhaften Einheit vom System
Eingliederung einer Ersatzeinheit in das System
Verlagerung der entsprechenden Teilaufgaben
Wie kann bei der Fehlertoleranz ein fehlerfreier Zustand hergestellt werden
Fehlerkompensation
Einsatz eines Mehrheitsentscheidungssystems
fehlerhafte Größen von der Bildung der Ausgangsgröße ausschließen
➢ Vorteile
Fehlermaskierung (die zugehörigen Relativtests eingeschlossen) reicht als einziges Fehlertoleranz-Verfahren aus
Maskierer lassen sich vergleichsweise einfach implementieren
da Wiederholungsbetrieb entfällt, Fehlerbehandlung schneller als bei der Rückwärtsbehebung
➢ Nachteile
hoher Aufwand, wenn strukturelle Redundanz einzusetzen ist
Fehlerbehebung
Rückwärtsfehlerbehebung
Nach dem Auftreten eines Fehlers wird das System in einen in der Vergangenheit eingenommenen, fehlerfreien Zustand zurückversetzt
▪ Rücksetzpunkte erstellen
▪ Rücksetzen
Basis: Zeitredundanz
Fehlerbehandlungsbereich: Rückwärtsbehebungsbereich
Menge gemeinsam rücksetzbarer Komponenten
▪ einzelne Komponenten rücksetzen
▪ Mengen interagierender Komponenten rücksetzen
Vorwärtsfehlerbehebung
das fehlerbehaftete System nimmt einen vorher festgelegten fehlerfreien Zustand ein
▪ Besonderheiten erkennen
▪ Besonderheiten behandeln
anwendungsabhängige Mechanismen, kaum verallgemeinerbare Lösungen
oft nötig, wenn keine Zeitredundanz zur Verfügung steht, oder wenn Rücksetzen nicht möglich ist, weil auch physikalische Zustände rückgesetzt werden müssten (z.B. Steuerung einer Flugzeuglandung)
Vorwärtsfehlerbehebung - Beispiele
in einer Waschmaschine wird die Temperatur überwacht, geht ein Messwert verloren, wird ein Mittelwert der zuletzt gemessenen Werte verwendet
zur besseren Kapazitätsauslastung von Maschinen, die Werkstücke individuell bearbeiten, könnten die zugeführten Werkstücke geprüft werden, um eine Vorhersage ihrer Bearbeitungsdauer und eine günstige Verteilung auf die verfügbaren Maschinen zu ermöglichen. Fällt der prüfende Rechner aus, so könnte ein allgemeiner Erfahrungswert die Bearbeitungsdauer schätzen.
Vorwärtsfehlerbehebung - Vorteile
Aufwand an struktureller Redundanz ist gering
▪ nur Absoluttests und die erst im Ausnahmebetrieb zu aktivierenden Ausnahmebehandler sind hinzuzufügen. Replikation der Verarbeitungseinheiten und Rücksetzpunkte erübrigen sich
▪ Laufzeitaufwand im Normal-Fehlertolerierungsbetrieb wird nur von den Absoluttests verursacht und ist in diesem Sinn minimal
➢ Vorwärtsfehlerbehebung – Nachteile
nicht transparent, sondern anwendungsabhängig
Entwurfsaufwand lässt sich kaum auf andere Anwendungen umlegen und ist daher relativ hoch
das Gelingen der Vorwärtsbehebung hängt vom Schwierigkeitsgrad der Anwendung und von den Fähigkeiten des Entwerfers ab
Was bedeuten die Begriffe Zuverlässigkeitsziel, Zuverlässigkeit, Dienst und Benutzer
Entwicklung und Verifizierung sicherheitskritischer reaktiver Systeme, die kontinuierlich mit ihrer Umgebung interagieren und (Teile) der Umgebung steuern, um die vom Benutzer geforderten Dienste auszuführen
Vertrauenswürdigkeit eines (Computer)Systems
Dienst
Systemverhalten, wie es von seinen Benutzern wahrgenommen wird
Benutzer
anderes System (menschlich oder physisch), das mit dem Zielsystem interagiert
Welche Attribute von Sicherheitskritischen Systemen gibt es
Kontinuität der Dienstleistung
Sicherheit / Safety
Vermeidung katastrophaler Folgen für die Nutzer ebenso wie die Umwelt
Sicherheit / Security
Verhinderung des unbefugten Zugriffs auf und/oder der unbefugten Verarbeitung von Informationen
Sicherheitsmerkmale
Vertraulichkeit – Integrität – Verfügbarkeit
Fehler / Failure
erbrachte Dienstleistung entspricht nicht mehr den Spezifikationen
Störung / Error
Teil des Systemzustands, der wahrscheinlich zu einem späteren Ausfall führt
Defekt / Fault
Ursache einer Störung
Wie werden die Methoden zur Erreichung von Zuverlässigkeit klassifiziert
Fehlertoleranz
Bereitstellung eines Dienstes, der trotz Fehlernd en Spezifikationen entspricht
Fehlervermeidung (Fehlerprävention)
a-priori-Prävention des Auftretens oder der Einführung von Fehlern
Fehlerbeseitigung
Verringerung des Vorhandenseins (Anzahl, Schweregrad)von Fehlern
Fehlerprognose
Schätzung der aktuellen Anzahl, der künftigen Häufigkeit und der Folgen von Fehlern
Wie werden SW-Spezifikationen klassifiziert
Sicherheitseigenschaften S
jede Folge von Ereignissen, die gegen S verstößt, enthält ein Präfix, dessen unendliche Erweiterungen alle gegen S verstoßen (d.h. S gilt immer)
Lebendigkeitseigenschaften L
jede beliebige endliche Folge von Ereignissen kann zu einer unendlichen Folge erweitert werden, die L erfüllt (d.h. L gilt schließlich)
bei sicherheitskritischen Echtzeitsystemen sollten alle Zuverlässigkeitsanforderungen als Sicherheitseigenschaften spezifiziert werden: Lebendigkeitseigenschaften können nur garantieren, dass eine Dienstleistung letztlich erbracht wird, was im Zusammenhang mit harten Echtzeitsystemen nicht ausreichend ist
Was bedeuten die Begriffe Unfall, Schweregrad eines Unfalls, Gefahr/Hazard, (System.)Sicherheitsanforderungen und Gefahrenanalyse
Unfall
ein unerwünschtes und ungeplantes Ereignis, das zu einem bestimmten Ausmaß an Schaden führt
Schweregrad eines Unfalls
Angabe des Ausmaßes des durch den Unfall verursachten Schadens, z. B. vernachlässigbar – geringfügig – kritisch –katastrophal
Gefahr / Hazard
etwas, das Schaden anrichten oder zu einem Unfall führen kannGefahren „erben” ihre Schweregradeigenschaften von den schädlichsten Unfällen, die sie verursachen können
System-)Sicherheitsanforderungen
eine Spezifikation, welche die akzeptablen Beziehungen zwischen der Schwere der Gefahr und der Wahrscheinlichkeit ihres Eintretens beschreibenabgeleitet von
Gefahrenanalyse
Liste möglicher Gefahren, ihrer Auswirkungen auf die Umwelt, ihrer möglichen Ursachen (z. B. Abfolgen von Fehlern, die zu einer Gefahr führen)
Gefahrenliste: Sammlung der identifizierten Gefahren
Gefahren-Schweregrad-Matrix: setzt Gefahren in Beziehung zum Schweregrad
Gefahren-Wahrscheinlichkeits-Matrix: setzt Gefahren in Beziehung zu Wahrscheinlichkeit ihres Auftretens
Gefahrenmodell: Beschreibung der möglichen Ursachen, die zu einer Gefahr führen
Wie können Sicherheitskritische Systeme dargestellt werden
Was ist die Risikobewertung
Risikobewertung
quantitative oder qualitative Schätzungen der Wahrscheinlichkeit, dass eine Gefahr eintritt
nach dem heutigen Stand der Technik sollte ein Gefahrenmodell mindestens semiformal sein, beispielsweise unter Verwendung von
Fehlerbäumen
Ereignisbaumanalysen
Ursache-Wirkungs-Analysen
Was passiert, wenn trotz Sicherheitsvorkehrungen eine gefähliche Situation zu einem Unfall führt
wenn trotz aller Sicherheitsvorkehrungen eine gefährliche Situation zu einem Unfall führt, werden detaillierte Untersuchungen durchgeführt, um eine Wiederholung ähnlicher Unfälle zu verhindern
Ursachenanalyse
bezeichnet die Aufgabe, die entscheidenden Ursachen eines Unfalls zu identifizieren
1. Datenerhebung
2. Darstellung der ursächlichen Faktoren („Kausalkette“)
3. Ermittlung der Grundursache
4. Ausarbeitung von Empfehlungen
5. Umsetzung der Empfehlungen
von besonderem Interesse ist die Untergruppe der Grundursachen, deren Auftreten durch technische oder organisatorische Maßnahmen kontrolliert (d. h. verhindert) werden kann
Wie können Sicherheitskritische Systeme in das V-Modell hinzugefügt werden
Was ist das RAMS V-Modell
Reliability (Zuverlässigkeit)
die Fähigkeit eines Systems, unter festgelegten Bedingungen eine erforderliche Funktion für einen bestimmten Zeitraum ohne Ausfall zu erfüllen
Availability (Verfügbarkeit)
die Wahrscheinlichkeit, dass ein System zu einem bestimmten Zeitpunkt betriebsbereit ist, unter Berücksichtigung von Ausfällen und Instandhaltungszeiten
Maintainability (Instandhaltbarkeit)
die Einfachheit, mit der ein System gewartet oder repariert werden kann, um es wieder in einen funktionsfähigen Zustand zu versetzen
Safety (Sicherheit)
die Freiheit von inakzeptablem Risiko für Gesundheit und persönliche Unversehrtheit von Menschen sowie der Umwelt.
Wie können sicherheitskirtische Systeme Modelliert werden
Was ist CSP
Spezifikation mittels CSP
Communicating Sequential Processes (CSP)
eine Prozessalgebra zur Beschreibung von Interaktion zwischen kommunizierenden Prozessen
Prozess
unabhängige Einheiten, in sich geschlossen (Black Box), mit bestimmten Schnittstellen für die Interaktion mit der Umgebung(die selbst ein Prozess ist)
ein aktiver Prozess führt eine Folge von Ereignissen aus
Notierung<process_name> = (<behaviour>)
Ereignis
Kommunikation
Interaktion / Beobachtung / Synchronisation mittels Ereignisse oder Daten
Was sind Traces
Last changeda day ago