Was umfasst Business Inteligence?
OLAP (Online Analytical Processing)
● Umfasst auch das DWH samt Dantenbanken
● Weitere Themen sind Verteilung, Datenbeschaffung, Daten Vorbereitungen
➔ Analyse ● Auswertunge, Statistiken, zyklisch & adhoc, Entscheidungsvorlagen
➔ Data Mining ● Korelationen, Kausalitäten, Wissenbasiertes Lernen und Prognosen
➔ Projektorganisation ● Planung, Aufbau, Pflege und Betrieb on BI-Systemen
Was beeinhalten die FASMI-Regeln?
F = Schnelle abfragen mit durschnittlich 5s bis max 10s
A = Einfache Analyse der Daten ermöglichen
S = Mehrbenutzerbetrieb mit notwendigen Schutzmaßnahmen
M = Datenstruktur muss beliebige Dimensionshierachien ermöglichen
I = Die Daten dürfen durch System in der Transparenz nicht beschränkt werden
Beschreibe den Grundlegenden Aufbau einer OLAP DWH-Architektur?
Warum werden operative Daten von Auswertungsdaten getrennt?
Um das operative System nicht zusätzlich zu belasten.
Damit beide Systeme ihre primäre Aufgabe bestmöglichst erfüllen können
Zwei Vertriebsstellen mit überschneidenden Rechnungskreise benötigen ein gemeinsames OLAP, was empfehlen Sie als ersten Schritt?
Die Daten müssten erst auf ein gemeinsamen Nenner (Harmonisierung der Stammdaten) gebracht werden, beispielsweise das für jede Abteilung die gleichen Einheiten benutzt werden. Außerdem muss sich auf die Art des Systems geeinigt werden und wer für die Wartung zuständig ist.
Ein Pharmakonzern bietet Ihnen hohe Summen für Ihre medizinischen Labordaten. Was ist zu beachten?
Die ist meist nach der DSVGO nicht umsetzbar da es sich um besonderst schützenswerte Daten handelt.
Es müssten Zustimmungen der Kunden sowie eine Pseudonomisierung der Daten stattfinden.
Der Data Warehouse Würfel.
Was sind Dimensionen?
Was sind Fakten?
Wie soll die optimale Leseperformance gewährleistet werden ?
Dimensionen sind die Beschreibungsmerkmale eines Datenwürfels, wie Zeit, Produkt oder Region, nach denen Daten gruppiert und analysiert werden können. Fakten sind die Kennzahlen, also konkrete Messwerte wie Umsatz oder Absatz, die innerhalb dieser Dimensionen abgelegt werden. Um eine optimale Leseperformance zu gewährleisten, werden die Daten im Data Warehouse in einem Star- oder Snowflake-Schema organisiert, bewusst denormalisiert und durch Indizierung, Aggregationen sowie Partitionierungen für schnelle Abfragen optimiert.
Erkläre den Unterschied zwischen Star Schema und Snowflake Schema?
Bei einem Star Schema wird jede Dimension in einer Tabelle zusammengefasst.
In der Mitte existiert eine zentrale Faktentabelle mit den getätigten Messungen.
In einem Snowflake Schema werden Ansätze einer Normalisierung durchgeführt.
Hier wird jede Hierarchie Ebene in einer seperaten Tabelle gehalten (Beispielsweise eine für Jahr und eine für Monat)
Beispiel für Star Schema und Snowflake für Zeitreihen oder Temporalisierung
Star Schema:
Snowflake Schema:
Welche Operationen gibt es in einem OLAP Würfel
Slice= Zu einem Filterergebnis die gemessenen Fakten anschauen
DICE = Einen kleineren Teil des Würdels betrachten Filter nach mehreren Werten (Standort,Zeit)
Drill Down/Up = Eine Dimensionsebene herab oder herauf gehen
Drill Across = Zwei Dimensionen vergleichen
Pivot oder Rotate = Daten drehen um weitere Dimesnionen sichtbar zu machen
Unterschied OLAP und OLTP?
Was bedeutet das AKID/ACID Modell?
Was bedeutet das CAP/KVA Modell?
AKID = Atomar, Konsistent, Isoliert und Dauerhaft
CAP/KVA-Theorem = konsistent, verfügbar und ausfallsicher
Was macht der Extraktion Bereich in einem ETL Prozess?
Er dient der Anbindung von Systemen an die BI
Hier können unterschiedliche Quellsysteme, darunter Datenquellen und Schnittstellen angebunden werden
Die Extraktion kann Ereignis- Intervall-basiert oder nach Bereitstellung durch die Quelle erfolgen
Was macht der Transformation Bereich in einem ETL Prozess?
Ist für die Vereinheitlichung von Datenformaten, Bezugspunkten und Datenstrukturen
Hier findet das Mergen von Daten, das entfernen von Duplikaten statt mit dem Ziel die Datenqualität zu erhöhen
Was macht der Loading Bereich in einem ETL Prozess?
Führt das Laden der Daten in das DWH-System aus
Pufferung in einem Staging-Bereich der Daten möglich
Für was ist die Staging Area?
Für was ist der Cleansing Prozess?
Staging-Area:
Der Staging Bereich ist ein zusätzliche Pufferbereich für die Daten.
Schnellstmöglichstes Laden der Daten im Bereich ermöglichen
Hier kann eine Nachverarbeitung der Daten stadtfinden sowie eine Verteilung in die Fakten und Dimensionen
Cleansing Prozess:
Verknüpfung der Staging Daten mit den Dimension
Temporale Bereinigung von Daten
Reduzierung von Datenlücken in den Faktentabellen
Zusätzlicher Ladeprozess der Daten in Fakten und Dimensionen
Weitere Erhöhung der Datenqualität
Was ist Filter und Pipe?
Die Extraktion von Daten aus Dateien, Datenbanken, Web-Services, Ports, Logs
Transformieren der Daten: Filtern Teilen, Zusammenführen, Verknüpfen, Umformen, Berechnen
Daten laden in:
DB, DWH, OLAP, Dateien,
1.Nennen Sie 8 problematische Datenquellen für DWH die schwer zu transformieren sind.
2.Welchen maximalen Laufzeit darf ein ETL-Prozess haben? (Bitte keine Angabe in s, min., h)
Problematische Datenquellen für ein Data Warehouse sind zum Beispiel Logs von alten Maschinen, Excel-Dateien mit unterschiedlichen Formatierungen, manuell gepflegte Access-Datenbanken, CSV-Dateien mit wechselnden Trennzeichen, instabile Web-Services, unstrukturierte Textdateien wie Protokolle oder E-Mails, Altsysteme ohne Dokumentation sowie externe Partnerdaten mit unterschiedlichen Kodierungen oder Maßeinheiten.
Ein ETL-Prozess darf nur so lange dauern, dass der nachfolgende Prozess ohne Verzögerung starten kann – er muss also innerhalb des vorgesehenen Ladefensters abgeschlossen sein, sodass die Daten rechtzeitig für Reporting oder OLAP verfügbar sind.
Beispiel ETL Prozess
Was ist der Unterschied zwischen Detaildaten, Aggregatsdaten und Metadaten?
Detaildaten: Hierzu zählen gemessene Fakten und die zugehörigen Dimensionen
Aggregatsdaten: Multidimensionale Aggregate der Detaildaten, Meist optimiert auf der aggregation der wichtigsten Permutationen
Metadaten: Sind Daten über die Daten (Größe, Wann erstellt … )
Welche Möglichkeiten der logischen Datenmodellierung existieren ?
ROLAP Basis ist eine relationale Datenbank
MOLAP Basis ist eine multidimensionale Datenbank
HOLAP Basis ist ein Hybrid aus ROLAP und MOLAP
DOLAP Basis ist eine Desktop Verarbeitung der Daten
Data Lake Quelldaten werden quasi unverändert gesammelt abgelegt
Erkläre die Datenmodellierung mit ROLAP
Basis: Relationale Datenbank, Zugriff über SQL.
Eignung: Große, strukturierbare Datenmengen.
Speicher: Entspricht operativen Systemen.
Datenwürfel-Abbildung:
Star Schema: Faktentabelle + Dimensionstabellen (einfach, performant).
Snowflake Schema: Normalisierte Dimensionen mit Hierarchien (strukturierter, aber komplexer).
Performance: Normalformen oft eingeschränkt, Aggregationstabellen für Kennzahlen nötig.
Versionierung & Temporalisierung:
In Fakten einfach über zusätzliche Versions-Dimensionen.
In Dimensionen aufwendig (ganze Hierarchien müssen versioniert werden, Gefahr verwaister Elemente).
Zeitliche Gültigkeit beachten (gesetzliche Vorschriften).
Abfragen:
Komplexität steigt mit Versionierung/Temporalisierung.
Fensterfunktionen vereinfachen manche SQL-Abfragen.
Wie funktioniert die Datenmodellierung mit MOLAP?
Speicherung: Alle Daten (Detail-, Aggregats- und Metadaten) liegen in multidimensionalen Strukturen.
Eignung: Kleine bis mittlere Datenmengen.
Zugriff: Proprietäres OLAP-Protokoll.
Speicherbedarf: Sehr hoch.
Performance:
Sehr schnelle Abfragen durch vorberechnete Aggregationen.
Langsame Ladeprozesse, da beim Laden alle Aggregationen erstellt werden.
Wie funktioniert Datenmodellierung mit DOLAP?
Speicherung: Detaildaten, Aggregatsdaten und Metadaten liegen in einer proprietären Hauptspeicherstruktur der Desktop-Anwendung.
Zugriff: Meist über eine GUI (grafische Oberfläche).
Ressourcen: Nutzt direkt den Arbeitsspeicher des Desktops.
Aggregate: Werden meist on demand erstellt.
Abfragen: Sehr schnell, solange sie im Speicher ausgeführt werden.
Ladevorgänge: Entsprechen dem Dateiladebereich (langsamer als MOLAP/ROLAP).
Begrenzung durch Desktop-Ressourcen (RAM, CPU).
Daher nur für kleine bis mittlere Datenmengen sinnvoll.
Nicht geeignet für große, komplexe OLAP-Szenarien.
Wie funktioniert die Datenmodellierung mit einem Data Lake?
Speicherung: Daten werden unstrukturiert abgelegt (Dateien, Logs, Streams, Bilder, Texte etc.).
Zugriff: Über Indizierung und Suchmechanismen.
Voraggregation: Sinnvoll, um Suchanfragen zu beschleunigen.
Schnelle Datenintegration: Neue Daten können nahezu ohne Transformation aufgenommen werden.
Flexibilität: Speicherung von strukturierten, semi-strukturierten und unstrukturierten Daten.
Skalierbarkeit: Geeignet für sehr große Datenmengen.
Verteilte Ausführung: Unterstützt parallele Verarbeitung (z. B. mit Hadoop, Spark).
Datenqualität und Konsistenz müssen oft nachträglich gesichert werden.
Abfragen können komplex sein, wenn keine Voraggregation oder Indizierung vorhanden ist.
Ohne klare Governance droht ein „Data Swamp“ (unübersichtlicher Datenhaufen).
Versionierung von Daten
Wie funktioniert Master Slave mit zwei Tabellen?
Wie funktioniert Master Slave mit einer Tabelle?
Master-Tabelle
Enthält den Primärschlüssel und unveränderbare Felder (z. B. Stammdaten).
Slave-Tabelle
Enthält einen Fremdschlüssel auf den Master.
Hat einen eigenen Primärschlüssel.
Speichert die Versionsangabe (z. B. Zeitstempel, Versionsnummer).
👉 Vorteil: Klare Trennung zwischen Stammdaten und Versionen. 👉 Nachteil: Mehr Tabellen, komplexere Joins.
Master-Datensatz
Enthält Primärschlüssel und einen Fremdschlüssel auf sich selbst (Self-Reference).
Slave-Datensatz
Hat ebenfalls einen Primärschlüssel (auf Master).
Enthält die Versionsangabe.
Häufig wird die aktuelle Version als Master genutzt.
👉 Vorteil: Nur eine Tabelle, einfacher Aufbau. 👉 Nachteil: Bei Änderungen oft zwei Updates nötig (Master + neue Slave-Version).
Wie funktioniert Temporalisierung und welche Varianten gibt es ?
Temporalisierung ist ein Teilgebiet der Versionierung bei dem darauf geachtet wird das die Einträge im DWH keine Überlappenden Zeiteinträge haben.
Jeder Datensatz erhält zusätzlich zu seinen fachlichen Attributen Zeitinformationen.
Dadurch kann man nachvollziehen:
Wann ein Wert gültig war (Gültigkeitszeitraum).
Wann man von diesem Wert wusste (Kenntniszeitraum).
Wann er tatsächlich aktualisiert wurde (Aktualisierungszeitraum).
So lassen sich historische Entwicklungen, Korrekturen und gesetzliche Anforderungen sauber dokumentieren.
Dabei existieren folgende Varianten:
Ohne: Letzter bekannter Wert wird gespeichert
Einfach: Gültigkeitszeitraum der Werte werden mit abgelegt
2 D: Zum Gültigkeitszeitraum wird der Kenntniszeitraum der Werte werden mit abgelegt 3 D. Zum Gültigkeitszeitraum und Kenntniszeitraum wird der Aktualisierungszeitraum der Werte werden mit abgelegt
Möglichkeiten der Partitionierung in einem DWH?
Daten werden über Kriterien über mehrere Speicherorte verteilt
Reduzierung der Lesezugriffe durch Kriterien Vorauswahl
Parallele Befüllung unterschiedlicher Speicherbereiche möglich
Nachteil: Schlechte Kriterienwahl führt zu längeren Suchzeiten
Mögliche Partitionierung:
Faktentabelle nach Zeiträumen (Monat, Quartal, Jahr)
Faktentabelle nach Orten (Filialen, Länder, Absatzgebiete)
Faktentabelle nach Schreibprozessen bzw. Datenlieferungen
Rollende Partitionen mit zyklischem Überschreiben
Rollende Partitionen sind ein Verfahren im Data Warehouse, bei dem Tabellen nach Zeiträumen (z. B. Tagen, Monaten, Jahren) partitioniert werden und alte Partitionen regelmäßig entfernt oder archiviert sowie neue Partitionen hinzugefügt werden. Dadurch „rollen“ die Partitionen mit der Zeit weiter, sodass nur die relevanten Daten im aktiven Zugriff bleiben.
Was sind Data Marts?
Welche Arten gibt es ?
Data Marts sind spezialisierte Teilausschnitte eines Data Warehouse, die für schnellere Abfragen und besseren Datenschutz sorgen. Es gibt abhängige, unabhängige und hybride Formen – je nach Bedarf an Zentralisierung vs. Autonomie.
Was beeinhaltet Logging & Monitoring in Data Warehouse?
Logging & Monitoring im Data Warehouse umfasst die Überwachung von ETL-Prozessen, Datenintegration, Systemressourcen und Sicherheit. Es ermöglicht Fehlererkennung, Qualitätssicherung und präventives Handeln, erfordert aber oft ein separates DWH, (für Logging Daten) da die dabei entstehenden Datenmengen sehr groß sein können.
Was ist bei einem Backup zu beachten ?
Datenerhaltung durch Backup
Backup wegen großer Datenmengen oft Problematisch
Ein Backup nutzt nur wenn man zurückspielen kann! Testen!
Backup getrennt und geschützt aufbewahren
Verteilte Daten durch Redundanz Faktor schützen
Einfluss des Backup auf Datenprozesse beachten
Sie werden zu einem Kunden zur Beschleunigung eines OLAP-Systems gerufen. Erstellen Sie einen Arbeitsplan wie Sie vorgehen und welche Punkte Sie sich in welcher Reihenfolge annehmen wollen?
Performance Tuning ist Verbesserung der Antwortzeiten
Maßnahmen sind:
1) Informationsmanagement
2) Datenbank Design
3) Anwendungsumgebung
4) Datenbankzugriff
5) Datenbank Konfiguration
6) Betriebssystem
7) Netzwerk
8) Hardware
Der Arbeitsplan folgt dem Prinzip: erst logisch-konzeptionell (Informationsmanagement, Design), dann technisch (Zugriff, Konfiguration), schließlich Infrastruktur (OS, Netzwerk, Hardware). So stellst du sicher, dass du nicht sofort teure Hardware einsetzt, sondern zuerst die Software- und Datenebene optimierst.
Welche OLAP Schemen kennen sie ?
Welchen Inhalt hat Conways-Law und welche Auswirkung hat dies auf die Organisation eines OLAP Einführungsprojektes?
Es sagt aus das ein OLAP nur so gut sein kann wie die stattfindene Kommuniaktion im Unternehmen.
Das bedeutet das wenn Abteilungen nicht untereinander reden eventuell am Ende gar nicht alle Daten ins System kommen, andere Formate genutzt werden
Kurz gesagt es findet keine vereinheitlichung statt
Zuletzt geändertvor 22 Tagen