Data Warehouse

Buffl

5-Semster

von Aaron S.

Was umfasst Business Inteligence?

OLAP (Online Analytical Processing)

● Umfasst auch das DWH samt Dantenbanken

● Weitere Themen sind Verteilung, Datenbeschaffung, Daten Vorbereitungen

➔ Analyse ● Auswertunge, Statistiken, zyklisch & adhoc, Entscheidungsvorlagen

➔ Data Mining ● Korelationen, Kausalitäten, Wissenbasiertes Lernen und Prognosen

➔ Projektorganisation ● Planung, Aufbau, Pflege und Betrieb on BI-Systemen

Was beeinhalten die FASMI-Regeln?

F = Schnelle abfragen mit durschnittlich 5s bis max 10s

A = Einfache Analyse der Daten ermöglichen

S = Mehrbenutzerbetrieb mit notwendigen Schutzmaßnahmen

M = Datenstruktur muss beliebige Dimensionshierachien ermöglichen

I = Die Daten dürfen durch System in der Transparenz nicht beschränkt werden

Beschreibe den Grundlegenden Aufbau einer OLAP DWH-Architektur?

Warum werden operative Daten von Auswertungsdaten getrennt?

Um das operative System nicht zusätzlich zu belasten.

Damit beide Systeme ihre primäre Aufgabe bestmöglichst erfüllen können

Zwei Vertriebsstellen mit überschneidenden Rechnungskreise benötigen ein gemeinsames OLAP, was empfehlen Sie als ersten Schritt?

Die Daten müssten erst auf ein gemeinsamen Nenner (Harmonisierung der Stammdaten) gebracht werden, beispielsweise das für jede Abteilung die gleichen Einheiten benutzt werden. Außerdem muss sich auf die Art des Systems geeinigt werden und wer für die Wartung zuständig ist.

Ein Pharmakonzern bietet Ihnen hohe Summen für Ihre medizinischen Labordaten. Was ist zu beachten?

Die ist meist nach der DSVGO nicht umsetzbar da es sich um besonderst schützenswerte Daten handelt.

Es müssten Zustimmungen der Kunden sowie eine Pseudonomisierung der Daten stattfinden.

Der Data Warehouse Würfel.

Was sind Dimensionen?

Was sind Fakten?

Wie soll die optimale Leseperformance gewährleistet werden ?

Dimensionen sind die Beschreibungsmerkmale eines Datenwürfels, wie Zeit, Produkt oder Region, nach denen Daten gruppiert und analysiert werden können. Fakten sind die Kennzahlen, also konkrete Messwerte wie Umsatz oder Absatz, die innerhalb dieser Dimensionen abgelegt werden. Um eine optimale Leseperformance zu gewährleisten, werden die Daten im Data Warehouse in einem Star- oder Snowflake-Schema organisiert, bewusst denormalisiert und durch Indizierung, Aggregationen sowie Partitionierungen für schnelle Abfragen optimiert.

Erkläre den Unterschied zwischen Star Schema und Snowflake Schema?

Bei einem Star Schema wird jede Dimension in einer Tabelle zusammengefasst.

In der Mitte existiert eine zentrale Faktentabelle mit den getätigten Messungen.

In einem Snowflake Schema werden Ansätze einer Normalisierung durchgeführt.

Hier wird jede Hierarchie Ebene in einer seperaten Tabelle gehalten (Beispielsweise eine für Jahr und eine für Monat)

Beispiel für Star Schema und Snowflake für Zeitreihen oder Temporalisierung

Star Schema:

Snowflake Schema:

Welche Operationen gibt es in einem OLAP Würfel

Slice= Zu einem Filterergebnis die gemessenen Fakten anschauen

DICE = Einen kleineren Teil des Würdels betrachten Filter nach mehreren Werten (Standort,Zeit)

Drill Down/Up = Eine Dimensionsebene herab oder herauf gehen

Drill Across = Zwei Dimensionen vergleichen

Pivot oder Rotate = Daten drehen um weitere Dimesnionen sichtbar zu machen

Unterschied OLAP und OLTP?

Was bedeutet das AKID/ACID Modell?

Was bedeutet das CAP/KVA Modell?

AKID = Atomar, Konsistent, Isoliert und Dauerhaft

CAP/KVA-Theorem = konsistent, verfügbar und ausfallsicher

Was macht der Extraktion Bereich in einem ETL Prozess?

Er dient der Anbindung von Systemen an die BI

Hier können unterschiedliche Quellsysteme, darunter Datenquellen und Schnittstellen angebunden werden

Die Extraktion kann Ereignis- Intervall-basiert oder nach Bereitstellung durch die Quelle erfolgen

Was macht der Transformation Bereich in einem ETL Prozess?

Ist für die Vereinheitlichung von Datenformaten, Bezugspunkten und Datenstrukturen

Hier findet das Mergen von Daten, das entfernen von Duplikaten statt mit dem Ziel die Datenqualität zu erhöhen

Was macht der Loading Bereich in einem ETL Prozess?

Führt das Laden der Daten in das DWH-System aus

Pufferung in einem Staging-Bereich der Daten möglich

Für was ist die Staging Area?

Für was ist der Cleansing Prozess?

Staging-Area:

Der Staging Bereich ist ein zusätzliche Pufferbereich für die Daten.

Schnellstmöglichstes Laden der Daten im Bereich ermöglichen

Hier kann eine Nachverarbeitung der Daten stadtfinden sowie eine Verteilung in die Fakten und Dimensionen

Cleansing Prozess:

Verknüpfung der Staging Daten mit den Dimension

Temporale Bereinigung von Daten

Reduzierung von Datenlücken in den Faktentabellen

Zusätzlicher Ladeprozess der Daten in Fakten und Dimensionen

Weitere Erhöhung der Datenqualität

Was ist Filter und Pipe?

Die Extraktion von Daten aus Dateien, Datenbanken, Web-Services, Ports, Logs

Transformieren der Daten: Filtern Teilen, Zusammenführen, Verknüpfen, Umformen, Berechnen

Daten laden in:

DB, DWH, OLAP, Dateien,

1.Nennen Sie 8 problematische Datenquellen für DWH die schwer zu transformieren sind.

2.Welchen maximalen Laufzeit darf ein ETL-Prozess haben? (Bitte keine Angabe in s, min., h)

Problematische Datenquellen für ein Data Warehouse sind zum Beispiel Logs von alten Maschinen, Excel-Dateien mit unterschiedlichen Formatierungen, manuell gepflegte Access-Datenbanken, CSV-Dateien mit wechselnden Trennzeichen, instabile Web-Services, unstrukturierte Textdateien wie Protokolle oder E-Mails, Altsysteme ohne Dokumentation sowie externe Partnerdaten mit unterschiedlichen Kodierungen oder Maßeinheiten.

Ein ETL-Prozess darf nur so lange dauern, dass der nachfolgende Prozess ohne Verzögerung starten kann – er muss also innerhalb des vorgesehenen Ladefensters abgeschlossen sein, sodass die Daten rechtzeitig für Reporting oder OLAP verfügbar sind.

Beispiel ETL Prozess

Was ist der Unterschied zwischen Detaildaten, Aggregatsdaten und Metadaten?

Detaildaten: Hierzu zählen gemessene Fakten und die zugehörigen Dimensionen

Aggregatsdaten: Multidimensionale Aggregate der Detaildaten, Meist optimiert auf der aggregation der wichtigsten Permutationen

Metadaten: Sind Daten über die Daten (Größe, Wann erstellt … )

Welche Möglichkeiten der logischen Datenmodellierung existieren ?

ROLAP Basis ist eine relationale Datenbank

MOLAP Basis ist eine multidimensionale Datenbank

HOLAP Basis ist ein Hybrid aus ROLAP und MOLAP

DOLAP Basis ist eine Desktop Verarbeitung der Daten

Data Lake Quelldaten werden quasi unverändert gesammelt abgelegt

Erkläre die Datenmodellierung mit ROLAP

Kompakte Zusammenfassung ROLAP-Datenmodellierung

Basis: Relationale Datenbank, Zugriff über SQL.
Eignung: Große, strukturierbare Datenmengen.
Speicher: Entspricht operativen Systemen.

Datenwürfel-Abbildung:

Star Schema: Faktentabelle + Dimensionstabellen (einfach, performant).
Snowflake Schema: Normalisierte Dimensionen mit Hierarchien (strukturierter, aber komplexer).
Performance: Normalformen oft eingeschränkt, Aggregationstabellen für Kennzahlen nötig.

Versionierung & Temporalisierung:

In Fakten einfach über zusätzliche Versions-Dimensionen.
In Dimensionen aufwendig (ganze Hierarchien müssen versioniert werden, Gefahr verwaister Elemente).
Zeitliche Gültigkeit beachten (gesetzliche Vorschriften).

Abfragen:

Komplexität steigt mit Versionierung/Temporalisierung.
Fensterfunktionen vereinfachen manche SQL-Abfragen.

Wie funktioniert die Datenmodellierung mit MOLAP?

Speicherung: Alle Daten (Detail-, Aggregats- und Metadaten) liegen in multidimensionalen Strukturen.
Eignung: Kleine bis mittlere Datenmengen.
Zugriff: Proprietäres OLAP-Protokoll.
Speicherbedarf: Sehr hoch.
Performance:
- Sehr schnelle Abfragen durch vorberechnete Aggregationen.
- Langsame Ladeprozesse, da beim Laden alle Aggregationen erstellt werden.

Wie funktioniert Datenmodellierung mit DOLAP?

🔑 Merkmale

Speicherung: Detaildaten, Aggregatsdaten und Metadaten liegen in einer proprietären Hauptspeicherstruktur der Desktop-Anwendung.
Zugriff: Meist über eine GUI (grafische Oberfläche).
Ressourcen: Nutzt direkt den Arbeitsspeicher des Desktops.

⚡ Performance

Aggregate: Werden meist on demand erstellt.
Abfragen: Sehr schnell, solange sie im Speicher ausgeführt werden.
Ladevorgänge: Entsprechen dem Dateiladebereich (langsamer als MOLAP/ROLAP).

🚧 Einschränkungen

Begrenzung durch Desktop-Ressourcen (RAM, CPU).
Daher nur für kleine bis mittlere Datenmengen sinnvoll.
Nicht geeignet für große, komplexe OLAP-Szenarien.

Wie funktioniert die Datenmodellierung mit einem Data Lake?

🔑 Merkmale

Speicherung: Daten werden unstrukturiert abgelegt (Dateien, Logs, Streams, Bilder, Texte etc.).
Zugriff: Über Indizierung und Suchmechanismen.
Voraggregation: Sinnvoll, um Suchanfragen zu beschleunigen.

⚡ Vorteile

Schnelle Datenintegration: Neue Daten können nahezu ohne Transformation aufgenommen werden.
Flexibilität: Speicherung von strukturierten, semi-strukturierten und unstrukturierten Daten.
Skalierbarkeit: Geeignet für sehr große Datenmengen.
Verteilte Ausführung: Unterstützt parallele Verarbeitung (z. B. mit Hadoop, Spark).

🚧 Einschränkungen

Datenqualität und Konsistenz müssen oft nachträglich gesichert werden.
Abfragen können komplex sein, wenn keine Voraggregation oder Indizierung vorhanden ist.
Ohne klare Governance droht ein „Data Swamp“ (unübersichtlicher Datenhaufen).

Versionierung von Daten

Wie funktioniert Master Slave mit zwei Tabellen?

Wie funktioniert Master Slave mit einer Tabelle?

🔑 Lösung mit zwei Tabellen

Master-Tabelle
- Enthält den Primärschlüssel und unveränderbare Felder (z. B. Stammdaten).
Slave-Tabelle
- Enthält einen Fremdschlüssel auf den Master.
- Hat einen eigenen Primärschlüssel.
- Speichert die Versionsangabe (z. B. Zeitstempel, Versionsnummer).

👉 Vorteil: Klare Trennung zwischen Stammdaten und Versionen. 👉 Nachteil: Mehr Tabellen, komplexere Joins.

🔑 Lösung mit einer Tabelle

Master-Datensatz
- Enthält Primärschlüssel und einen Fremdschlüssel auf sich selbst (Self-Reference).
Slave-Datensatz
- Hat ebenfalls einen Primärschlüssel (auf Master).
- Enthält die Versionsangabe.
Häufig wird die aktuelle Version als Master genutzt.

👉 Vorteil: Nur eine Tabelle, einfacher Aufbau. 👉 Nachteil: Bei Änderungen oft zwei Updates nötig (Master + neue Slave-Version).

Wie funktioniert Temporalisierung und welche Varianten gibt es ?

Temporalisierung ist ein Teilgebiet der Versionierung bei dem darauf geachtet wird das die Einträge im DWH keine Überlappenden Zeiteinträge haben.

🔑 Funktionsweise

Jeder Datensatz erhält zusätzlich zu seinen fachlichen Attributen Zeitinformationen.
Dadurch kann man nachvollziehen:
- Wann ein Wert gültig war (Gültigkeitszeitraum).
- Wann man von diesem Wert wusste (Kenntniszeitraum).
- Wann er tatsächlich aktualisiert wurde (Aktualisierungszeitraum).
So lassen sich historische Entwicklungen, Korrekturen und gesetzliche Anforderungen sauber dokumentieren.

Dabei existieren folgende Varianten:

Ohne: Letzter bekannter Wert wird gespeichert

Einfach: Gültigkeitszeitraum der Werte werden mit abgelegt

2 D: Zum Gültigkeitszeitraum wird der Kenntniszeitraum der Werte werden mit abgelegt 3 D. Zum Gültigkeitszeitraum und Kenntniszeitraum wird der Aktualisierungszeitraum der Werte werden mit abgelegt

Möglichkeiten der Partitionierung in einem DWH?

Daten werden über Kriterien über mehrere Speicherorte verteilt

Reduzierung der Lesezugriffe durch Kriterien Vorauswahl

Parallele Befüllung unterschiedlicher Speicherbereiche möglich

Nachteil: Schlechte Kriterienwahl führt zu längeren Suchzeiten

Mögliche Partitionierung:

Faktentabelle nach Zeiträumen (Monat, Quartal, Jahr)

Faktentabelle nach Orten (Filialen, Länder, Absatzgebiete)

Faktentabelle nach Schreibprozessen bzw. Datenlieferungen

Rollende Partitionen mit zyklischem Überschreiben

Rollende Partitionen sind ein Verfahren im Data Warehouse, bei dem Tabellen nach Zeiträumen (z. B. Tagen, Monaten, Jahren) partitioniert werden und alte Partitionen regelmäßig entfernt oder archiviert sowie neue Partitionen hinzugefügt werden. Dadurch „rollen“ die Partitionen mit der Zeit weiter, sodass nur die relevanten Daten im aktiven Zugriff bleiben.

Was sind Data Marts?

Welche Arten gibt es ?

Data Marts sind spezialisierte Teilausschnitte eines Data Warehouse, die für schnellere Abfragen und besseren Datenschutz sorgen. Es gibt abhängige, unabhängige und hybride Formen – je nach Bedarf an Zentralisierung vs. Autonomie.

Was beeinhaltet Logging & Monitoring in Data Warehouse?

Logging & Monitoring im Data Warehouse umfasst die Überwachung von ETL-Prozessen, Datenintegration, Systemressourcen und Sicherheit. Es ermöglicht Fehlererkennung, Qualitätssicherung und präventives Handeln, erfordert aber oft ein separates DWH, (für Logging Daten) da die dabei entstehenden Datenmengen sehr groß sein können.

Was ist bei einem Backup zu beachten ?

Datenerhaltung durch Backup

Backup wegen großer Datenmengen oft Problematisch

Ein Backup nutzt nur wenn man zurückspielen kann! Testen!

Backup getrennt und geschützt aufbewahren

Verteilte Daten durch Redundanz Faktor schützen

Einfluss des Backup auf Datenprozesse beachten

Sie werden zu einem Kunden zur Beschleunigung eines OLAP-Systems gerufen. Erstellen Sie einen Arbeitsplan wie Sie vorgehen und welche Punkte Sie sich in welcher Reihenfolge annehmen wollen?

Performance Tuning ist Verbesserung der Antwortzeiten

Maßnahmen sind:

1) Informationsmanagement

2) Datenbank Design

3) Anwendungsumgebung

4) Datenbankzugriff

5) Datenbank Konfiguration

6) Betriebssystem

7) Netzwerk

8) Hardware

Der Arbeitsplan folgt dem Prinzip: erst logisch-konzeptionell (Informationsmanagement, Design), dann technisch (Zugriff, Konfiguration), schließlich Infrastruktur (OS, Netzwerk, Hardware). So stellst du sicher, dass du nicht sofort teure Hardware einsetzt, sondern zuerst die Software- und Datenebene optimierst.

Welche OLAP Schemen kennen sie ?

Welchen Inhalt hat Conways-Law und welche Auswirkung hat dies auf die Organisation eines OLAP Einführungsprojektes?

Es sagt aus das ein OLAP nur so gut sein kann wie die stattfindene Kommuniaktion im Unternehmen.

Das bedeutet das wenn Abteilungen nicht untereinander reden eventuell am Ende gar nicht alle Daten ins System kommen, andere Formate genutzt werden

Kurz gesagt es findet keine vereinheitlichung statt

Beitreten

Vorschau

Author

Aaron S.

Informationen

Zuletzt geändert
vor 2 Monaten

Kurs melden