Im Rahmen der Beschickung des Data Warehouses (DWH) mit Daten durchlaufen diese einem ETL-Prozess.Beschreiben Sie detailliert die einzelnen Stufen des ETL-Prozesses und geben sie Beispiele.
ETL beschreibt die 3 Phasen wie Daten auf operativen Systemen in das Datawarehouse gelangen.
Data Pipeline
Phase 1(extract) Extraktionsarten sind zb. Initialer Datenimport (einmalig) inkrmenteller Datenimport ( Regelmäsig) , diese werden durch SQL Trigger, Protokolldateien, oder Snappshotting erkannt
Phase 2 Transformation:(Inahltlich gleiche Daten können in unterschiedliche Formen und in unterschiedlichen operative Systemen vorliegen.
Die Transformation befasst sich mit dem bereinigen und vereinheitlichen von Daten, die aus unterschiedlichen Systemen stammen.
Phase 3 (Load) Bereinigte und vereinheitlichte Datenübertragung in das Zielsystem.
Im Rahmen des ETL-Prozesses findet eine Transformation der Daten statt. Welche Arten von Transformationen könnenbeispielhaft vorkommen und was bezeichnet man als Aggregation von Daten bzw. Anreicherung von Daten?
Arten der Transformation: Es gibt die:
- Datenbereinigung
- Datenformatierung
- Datenfilterung
- Datenpartitionierung.
- Datenanreicherung( Data enrichement ist die automatisierte Ergänzung bestehender
Datensätze um neue Datenfelder. Vereinfacht dargestellt wird die Tabelle der Analysedaten um zusätzliche Spalten mit neuen Informationen ergänzt. Dabei werden die Ergebnisse der Datenanreicherung grundsätzlich in der Analysendatenhaltung gespeichert.
Datenaggregation(kann in jeder größe Angewendet werden von einfachen Tabellen, bis hin zu Datalakes um Informationen zusammenzusfassen und schlussfolgerungen auf der Grundlage datenreicher Kentnisse zu ziehen.
Dimensionshierarchien, Verdichtungen nach Hierarchischen Gruppen, d.h. gröbere Dimensionsgranularität).
Datenaggregation ist der Prozess, bei dem Daten gesammelt und in einer zusammengefassten Form für weitere Zwecke vorbereitet wird
Wie lauten die Schritte bei der Erstellung eines logischen multi-dimensionalen Vorgehensmodells?
Auswertungsmöglichkeiten
Fakten
Dimensionen
Dimensionselemente
Dimensionshierarchien
Beziehungen
Bei der Entwicklung eines logischen multi-dimensionalen Datenmodells gibt es zwei Konzepte. Wie heissen die beidenKonzepte (Schemata) und wie sind sie modelliert?
Sternschema:
-Jede Dimension hat eine eigene Tabelle
- Zentrale Faktentabelle,
- mehrere Sternförmige angeordnete Diemsnionstabellen
-(Faktentabelle = zentrum mit der Teildaten mit zu analysiernder Kennzahlen)
-Tabellen sind durch gemeinsame Schlüsselattribute verbunden
- DImensionstabellen = Daten in denormalisierter Form
Vorteile:
-Höhere performance dank DImensionstabellen und dadurch Reduzierung der insgesamten Tabellenverknüpfungen
-Verringerung von fehlerhaften Nutzereingaben
-einfache Beschreibung von Multidimensionalen Datenstrukturen
- gute Integration in bestehendes Controlling
Nachteile:
-Hohe Anzahl an Datensätzen in den Tabellen
- hoher Speicherplatzbedarf
-Datenkonflikte sind aufgrund der Denormalisierung möglich
Schneeflockenschema:
-Für jede Hierarchiestufe wird eine eigene Tabelle vorgesehen
-Erweiterung des Starschemas
-Diemnsionen stärker oder vollständig normalisiert
- Durch Normalisierung der Daten Redundanz vermeiden
- Zugriffsgeschwindigkeit bei Abfragen steigert
- Dimensionstabellen haben weniger Datensätze
- Dimensionstabellen haben kleineren Speicherplatzbedarf
- Deutlich mehr Verknüpfungsoperationen für Abfragen nötig
- Kompliziert im Aufbau
-unübersichtlich
-erfordert eine Vielzahl an Tabellen
In einem Data Warehouse (DWH) gibt es unterschiedliche Formen wie Daten gespeichert und bereitgehalten werden.Es gibt grundsätzlich drei verschiedene Datenablageformen die alle eine eigene Bezeichnung haben. Wie heissen diedrei Ablageformen und was ist deren markanter Unterschied?
Relationales (ROLAP):
Multinimensional (MOLAP)
Hybrides( HOLAP)
Last changed4 months ago