1. Im Rahmen der Beschickung des Data Warehouses (DWH) mit Daten durchlaufen diese einem ETL-Prozess.
a) Beschreiben Sie detailliert die einzelnen Stufen des ETL-Prozesses und
b) geben sie Beispiele.
a)
Der Prozess besteht aus drei Phasen:
- In der Extraktionsphase werden die Daten aus den operativen AS entnommen.
- In der Transformationsphasewerden die Daten transformiert.
- In der Lade-Phase werden die Daten in das Data Warehouse geladen(gespeichert).
Chat PDF: Seite 119 4 merge
---------------------------------------------------------------
1. Extraktion:
Daten werden aus
a) einer ERP Verkaufsdatenbank Genomen und
b) Kundendaten werden aus einer CRM Datenbank Genomen.
2. Transformation:
Daten werden
a) bereinigt und
b) aggregiert.
3. Laden:
Die transformierten Daten werden in das in das DWH geladen (z.B. Data Cube).
2. Im Rahmen des ETL-Prozesses findet eine Transformation der Daten statt.
a) Welche Arten von Transformationen können beispielhaft vorkommen und was
b) bezeichnet man als Aggregation von Daten bzw. Anreicherung von Daten?
Transformation Bsp:
1) Datumformate (z.B. MM/DD/YYYY in DD/MM/YYYY)
2) Geschlechtsformate (m/w in 0/1)
Seite 119 4 merge
b)
Aggregation = Zusammenfassung von Einzelwerten zu einem Gesamtwert
Anreicherung = Hinzufügung zusätzlicher Informationen zu einen Datensatz,
z.B. das Hinzufügen der Kundenadresse zu einer Bestellung.
3. Wie lauten die Schritte bei der Erstellung eines logischen multi-dimensionalen Vorgehensmodells?
A
F, W M
D b
D i
Dh b
B f
1. Auswertungsmöglichkeiten klären (Welche Auswertungen sollen Möglich Sein?)
2. Fakten bestimmen, Werte, Mengen
3. Dimensionen bestimmen
4. Dimensionselemente (feinstes Merkmal) Identifizieren
5. Dimensionshierarchien bestimmen
6. Bezeichnungen Festlegen
4. Bei der Entwicklung eines logischen multi-dimensionalen Datenmodells gibt es zwei Konzepte.
a) Wie heißen die beiden Konzepte (Schemata) und
b) wie sind sie modelliert?
1) Sternschema
2) Schneeflockenschema
Bilder
Bild 1: Schneeflockenschema -> ERM
Seite 122 4 merge
Google für Bilder
Es gibt keine allgemeingültige Antwort. Die Wahl hängt von den spezifischen Anforderungen ab.
Sternschema: Ist oft die bessere Wahl für einfache Analysen und wenn die Performance im Vordergrund steht.
Schneeflockenschema: Ist besser geeignet, wenn Datenredundanz vermieden und die Datenintegrität gewährleistet werden soll.
5. In einem Data Warehouse (DWH) gibt es unterschiedliche Formen wie Daten gespeichert und bereitgehalten werden.
Es gibt grundsätzlich drei verschiedene Datenablageformen die alle eine eigene Bezeichnung haben.
a) Wie heißen die drei Ablageformen und
B D
D W
O D S
b) was ist deren markanter Unterschied?
3 verschiedene Formen der Datenspeicherung in DWH:
1. Basis-Datenbank
2. Datenwürfel (Data Mart)
3. Operational Data Store (ODS)
Chat PDF: Seite 123 4 merge
Die Basis-Datenbank ist ein Umfassender, Integrierter und Langfristig aufbewahrter Datenbestand, der nicht Primär für Analytische Zwecke Benutzt wird.
ODS und Data Mart werden für Analytische zwecke genutzt und Enthalten nur Ausschnitte der Basis Datenbank.
Data Mart enthalt Aggregierte Daten (meist über längere Zeitraume).
ODS enthalt Detaillierte Daten (meist über kürzere Zeitraume)
6. OLAP (Online Analytical Processing) lässt sich in verschiedene Arten weiter unterteilen.
a) Wie heißen die drei Basis-Arten und
b) was ist deren dominanter Unterschied gemäß folgender Kriterien:
Technologie (Speicherungsart),
Datenmenge,
Datenzugriff,
Speicherbedarf,
Antwortzeit,
Aufbereitung.
Die drei Basis-Arten von OLAP sind:
1. ROLAP (relationales OLAP)
2. MOLAP (multidimensionales OLAP)
3. HOLAP (hybrides OLAP)
Chat PDF: Seite 124 4 merge
Last changed2 months ago