Availability Management

by Michelle S.

Was ist das AVM?

Das Management der extern geforderten Verfügbarkeiten der IT Services und der Zuverlässigkeit der zugrundeliegenden, technischen Komponenten findet im sogenannten Availability Management (AVM) statt. Im AVM werden, auf Basis der zuvor erhobenen ITInfrastruktur, die Verfügbarkeiten der einzelnen IT-Services in Abhängigkeit der benötigten IT-Komponenten ermittelt, dokumentiert und in Bezug zu getroffenen SLAs optimiert.

Selbst der innovativste IT-Service ist für das Business ohne Mehrwert, wenn er nur sporadisch zur Verfügung steht!

Was ist die Verfügbarkeit? Wie wird sie berechnet?

Die Verfügbarkeit eines Dienstes wird mit A(t) bezeichnet und drückt die Wahrscheinlichkeit der Funktionalität des Dienstes mit allen zugesicherten Eigenschaften zum Zeitpunkt t aus und wird in der Regel prozentual angegeben.

Somit drückt A ebenfalls den Anteil der Verfügbarkeit für einen vereinbarten Nutzzeitraum des Service (AST = Agreed Service Time) aus.

Rechnerisch ergibt sich die Verfügbarkeit der IT Dienstleistungen als zeitliches Verhältnis der sogenannten Uptime (IT-Service steht faktisch zur Verfügung) zum vereinbarten Servicezeitraum (AST).

Die vereinbarte Servicezeit kann als Modelle 24/7 oder 8/5 vereinbart werden. Im Modell 24/7 steht die IT Dienstleistung an 7 Tagen über 24 Stunden zur Verfügung.

Die im SLA definierte Servicezeit (z.B. 24/7 oder 8/5) hat somit direkte Auswirkung auf die Berechnung der Verfügbarkeit.

Die inhärente Verfügbarkeit A (ohne geplante Wartungszeiträume) kann somit als asymptotische Näherung im Beobachtungszeitraum durch folgendes Verhältnis angegeben werden.

Beispiel: Das zentrale Fachverfahren der Behörde stand im vereinbarten Servicezeitraum (24/7- Modell) an 40 Tagen - bis auf 8 Unterbrechungen mit insgesamt 12 Stunden Downtime - zur Verfügung. Welche Verfügbarkeitsklasse wurde bei diesem IT-Service erreicht?

In welche Kategorien wird die Gesamtverfügbarkeit der angebotenen IT-Service unterteilt?

In der Verfügbarkeitsklasse VK0 werden keinerlei Zusagen über Verfügbarkeiten der ITServices getroffen.

In der Verfügbarkeitsklasse VK1 wird die zeitliche Verfügbarkeit der Services zu 99,00 % der vereinbarten Servicezeit gewährleistet.

Häufig wird eine Hochverfügbarkeit der IT-Dienstleistung gefordert, diese Hochverfügbarkeit wird in der Verfügbarkeitsklasse 3 mit 99,99 % Verfügbarkeit im definierten Servicezeitraum definiert.

Im englischsprachigen Raum werden die Verfügbarkeitsklassen in conventional, commercial availability, high availability, fault resilient (fehlereleastisch) und fault tolerant (fehlertolerant) unterteilt.

Wie sind die Aufwände zur Gewährleistung von systemischer Hochverfügbarkeit einzuschätzen?

Die Aufwände zur Gewährleistung von systemischer Hochverfügbarkeit steigen exponentiell an, da sowohl organisatorische als auch technische Maßnahmen getroffen werden müssen, um die Einhaltung der jeweils maximal zulässigen Ausfallzeiten zu gewährleisten.

Exemplarisch wird nachfolgend die Ausfallzeit einer hochverfügbaren IT Dienstleistung berechnet, um die technischen und organisatorischen Maßnahmen abzuschätzen, die erforderlich sind, um Hochverfügbarkeit zu gewährleisten.

Die Berechnung der Verfügbarkeit wird i.d.R. auf ein SI-Jahr (365,25 Tage) bezogen. Somit berechnet sich die Ausfallzeit (Downtime) in der Verfügbarkeitsklasse 3 (Hochverfügbarkeit) mit A = 99,99 % Verfügbarkeit der IT Dienstleistung zu:

Downtime des IT-Service pro Jahr =(1-A)*AST=(1-0,9999)*365,25d=52,6m

Die maximale Downtime in der VK 3 beträgt für ein SI-Jahr ganze 52,6 Minuten der IT Dienstleistung. Das bedeutet, dass die IT Dienstleistung inklusive aller erforderlichen IT Komponenten für maximal 52,6 Minuten im gesamten Jahr nicht zur Verfügung stehen darf.

Somit besteht die Notwendigkeit, die Verfügbarkeit von IT-Komponenten in der Klasse VK 3 über zusätzliche technische (und organisatorische) Redundanzen zu erhöhen.

Was ist die MTBSI?

Die sogenannte Meantime Between Service Incidents (MTBSI) definiert die durchschnittliche Zeit zwischen zwei Serviceunterbrechung.

Was ist die MTBF? Was ist MTTF?

Die Meantime Between Failures (MTBF) beschreibt die durchschnittliche Service-Uptime, d.h. die durchschnittliche Zeit in dem der Service zur Verfügung steht.

Die Akronyme MTBF und MTTF werden synonym verwendet.

(Die MTBF wird durch das Verhältnis der gesamten Uptime der IT Dienstleistung zur Anzahl der Serviceunterbrechungen N gebildet:)

Die Berechnung der MTBF bzw. der MTTF (Meantime to failures) als mittlere Zeitdauer bis zum Eintritt des ersten Fehlers) kann auch über das Integral der Zuverlässigkeit über den Beobachtungszeitraum wie folgt berechnet werden [BSI13b] Band-G.2:

Was ist die MTRS?

Die Meantime To Restore Service (MTRS) bezeichnet die durchschnittliche Zeit, die für die Wiederherstellung des Service benötigt wird.

(Analog wird die MTRS als Verhältnis der gesamten Downtime der IT-Dienstleistung zu der Anzahl der Service Unterbrechungen N definiert.)

Beschreibe den Zusammenhangvon MTBF, MTBSI und MTRS und funktionsfähigen

Im folgenden Diagramm werden die Begrifflichkeiten grafisch dargestellt. Die grauen Bereiche stellen einen funktionsfähigen IT Service mit entsprechender Uptime des Service dar (der Service ist verfügbar). Die weißen Bereiche stellen die Zeiträume dar, in dem die IT Dienstleistung nicht zu Verfügung steht (der Service ist nicht verfügbar) und weisen somit die Downtimes des Service aus.

Was ist die Zuverlässigkeit R(t)? Wie ist der Zusammenhang zur Verfügbarkeit?

Die zugesicherte Verfügbarkeit A(t) des Dienstes setzt sich aus der Zuverlässigkeit R(t) (Reliability) der beteiligten technischen Komponenten (oder auch Betrachtungseinheiten) zusammen.

Die Zuverlässigkeit R(t) drückt die Wahrscheinlichkeit der Funktion der Komponenten oder System zum Zeitpukt t aus.

Eine Zuverlässigkeit R(t)=1 drückt die 100% Wahrscheinlichkeit der existierenden Systemfunktion mit allen zugesicherten Eigenschaften zum Zeitpunkt t aus.

Diese Zuverlässigkeit R(t) kann mit Kenntnis der beteiligten Komponenten berechnet und somit direkt in die Verfügbarkeit A(t) einfließen.

Ein linearer Zusammenhang zwischen Verfügbarkeit und Zuverlässigkeit bedeutet: A(t) = R(t). Dies setzt eine lineare Kopplung voraus.

Im Falle einer proaktiven Wiederherstellung der Komponenten (z.B. Failover/Takeover-Szenarien) im Fehlerfall gilt A(t)>=R(t), da die Systemverfügbarkeit i.d.R. größer als die Systemzuverlässigkeit ist, bzw. im Fehlerfall bereits die redundante Komponente zur Verfügung steht.

Wie wird die Systemverfügbarkeit und wie die Gesamtzuverlässigkeit berechnet?

Zur Bestimmung der Systemverfügbarkeit ist es erforderlich, alle Komponentenabhängigkeiten des betrachteten Dienstes zu analysieren. Sind diese ermittelt, müssen die Einzelzuverlässigkeiten und die vorliegende Verknüpfungslogik bestimmt werden.

Um die Gesamtzuverlässigkeit eines IT-Systems zu berechnen, werden die Einzelzuverlässigkeiten der technischen Komponenten betrachtet. In dieser sogenannten seriellen Konfiguration eines IT-Systems führt dies zur Reduzierung der Gesamtzuverlässigkeit Rges. Exemplarisch ist dies für die Komponenten R1 und R2 berechnet.

—> Serielle Konfiguration zweier technischer Komponenten

Wie kann die Zuverlässigkeit des Gesamt-Systems erhöht werden?

Um die Zuverlässigkeit des Gesamt-Systems zu erhöhen, muss Redundanz hinsichtlich der Ausfallwahrscheinlichkeit einzelner Komponenten erzeugt werden. Dies geschieht durch eine parallele Konfiguration (Dopplung) der jeweiligen technischen Komponenten. Dies wird in der Praxis z.B. bei der Beschaltung von USV (Unterbrechungsfreie Stromversorgungen) berücksichtigt. Die Dopplung der technischen Komponenten führt zur Erhöhung der Zuverlässigkeit in folgender Form:

—> Parallele Konfiguration zweier Komponenten durch Dopplung (Eigene Darstellung)

Beispiel: Ein Gesamtsystem besteht aus einem Server und einem Router mit jeweiligen Einzelzuverlässigkeiten von 98 %. Die Gesamtzuverlässigkeit des Systems berechnet sich somit zu 96,04 %. Wie viele Ausfallstunden lassen sich im SI-Jahr einsparen, wenn der Router redundant ausgelegt ist?

In Verfügbarkeitsanalysen ist es üblich, auch nicht-technische Komponenten zu bewerten und in die Berechnungen mit einzubeziehen. So kann eine Zuverlässigkeitsbetrachtung eines ITService in einfachster Form wie folgt aussehen:

R = RD * RF * RN * RE * RP

mit: RD = Datenbankserver, RF = Fileserver, RN = Netzwerk, RP = Personal und unterstützende Services, RE = Energieversorgung.

Nenne Exemplarische Kennwerte „Availability Management“

Kontrollfragen:

Erläutern Sie den Unterschied zwischen MTBF und MTBSI.
Für einen 24/7 E-Mail-Service, der in einem Zeitraum von 5020 Stunden mit nur zwei Unterbrechungen von 6 bzw. 14 Stunden ausgeführt wurde, sind die folgenden Werte für das SLM zu bestimmen: MTBF, MTRS, MTBSI und Verfügbarkeit A.
Berechnen Sie die Verfügbarkeit, die MTBF und die MTRS folgenden IT-Service: Das E-Mailing Ihrer Behörde wird vom IT-Dienstleister im 24/7-Modus bereitgestellt und stand bis auf 6 Unterbrechungen mit insgesamt 18 Stunden Downtime im Beobachtungszeitraum vom 35 Tagen dauerhaft zur Verfügung. In welche Hochverfügbarkeitsklasse kann die IT-Dienstleistung eingestuft werden?
Ein Gesamtsystem besteht aus einem Server und einem Router mit jeweiligen Einzelzuverlässigkeiten von 98 %. Die Gesamtzuverlässigkeit des Systems berechnet sich somit zu 96,04 %. Wie viele Ausfallstunden lassen sich im SI-Jahr einsparen, wenn der Router redundant ausgelegt ist?
Welcher Grund spricht gegen eine Bereitstellung aller benötigten IT-Services in der Klasse VK3 und höher?

Zusätzliche Übungsaufgaben M14.2.5

Join Course

Preview

Author

Michelle S.

Information

Last changed
3 years ago

Report course