Welche Anwendungsgebiete hat ein Data Warehouse beispielsweise?
Controlling,
Personalplanung,
klassisches Berichtswesen,
Vorhersagen des Umsatzes
Allgemeine Anwendungsgebiete eines Data Warehouse Systems
Informationsorientiert (z.B. klassisches Berichtswesen)
Analyseorientiert (z.B. Controlling)
Planungsorientiert (z.B. Personalplanung)
Kampagnenorientiert (z.B. Vorhersagen der Fluktation)
Multidimensionales Datenmodell Definition
Organisiert die Datenbasis eines data-warehouse-Systems mithilfe von Dimensionen, Fakten und Hierarchisierungen.
Fakten -> meist numerische Werte z.B. Umsatz
Dimensionen -> Kategorisierungen der Fakten, z.B. Zeit; Geografie; Produkt, …
Hierarchie -> Hierarchiestufen: Tag, Woche, Monat, Quartal, Jahr (Dimension zeit); Filiale, Stadt, Region, Land (Dimension Geografie); Artikel, produktgruppe, produktfamilie, produktkategorie (Dimension Produkt)
Aufbau Data Cube
Die n Dimensionen eines Data-warehouse-systems spannen einen n-dimensionalen Data Cube auf, der die Grundlage der multidimensionalen Datenanalyse bildet.
Kantenlängen: jeweilige Anzahl an Elementen einer Dimension
Der data Cube ist kein Würfel sondern eine n-dimensionale Matrix.
Vorteile des Star-Schemas gegenüber dem Snowflake-Schema
Einfache Struktur:
Struktur leicht verständlich und somit besser wartbar
Manuelle Abfragen (z.B. in SQL) können einfacher erstellt und gelesen werden
Flexible Hierarchiedarstellung:
Klassifikationshierarchien sind als Tabellenspalten abgebildet
Redundanzen verlangen nur sehr wenig Speicherplatz im vgl. zur Faktentabelle
Effiziente Abfragebearbeitung:
Filterung (z.B. WHERE in SQL) erfordert keine Joins innerhalb einer Dimension
Dadurch beschleunigte Anfragebearbeitung
Star-Schema
Meist fehler in der 3. Normalform; Redundant -> aber in der praxis meist besser .
Bei Verwendung des Star-Schemas können datenabfragen in Data-Warehouse-Systemen mit relativ einfachen SQL-Befehlen realisiert werden
Snowflake-Schema
Redundanzfrei und normalisiert, benötigt jedoch z.B. mehr Speicherplatz
Wie viele Faktentabellen umfasst eine Abfrage in der Regel?
eine;
normalerweise pro Abfrage eine Faktentabelle, außer es werden mehrere Infos gleichzeitig abgefragt.
Beispiel:
Wie lauetet die Mitarbeiteranzahl des Standorts Costa Rica im Februar 2021 aus dem Team Energy?
Fragen:
Wie viele faktentabellen umfasst diese Abfrage?
Wie viele Dimensionen umfasst die Abfrage?
Anzahl der Faktentabellen: 1
Anzahl Dimensionen: Geografie; Zeit; Team. -> 3
Abfrage eines Konsolidierungspfads im Star Schema
Auswahl des Konsolidierungspfads: GROUP BY
Filterung nach Diensionswerten: WHERE (z.B. WHERE L. country = “Germany”)
Filterung nach faktenwerten: HAVING (z.B: HAVING SUM (F.revenue) > 100000)
Sortierung: ORDER BY (z.B. ORDER BY SUM (F.revenue) DESC)
Data Mining
Analyseprozess, der darauf abzielt, Beziehungsmuster wie Regelmäßigkeiten und Auffälligkeiten in den Daten zu ermitteln.
Voraussetzung für Data Mining
Existenz eines einheitlichen, integrierten datenbestands.
Dieser wird durch Informationsintegration (V 07) und in data Warehouse Systemen verwaltet.
Erst wenn en solcher datenbestand vorliegt können datenanalysen (folg. VL) durchgeführt werden.
Online Transactional Processing (OLTP)
—>Ziel: operatives Datenmanagement
Ausführung einzelner, kurzer Lese- oder Schreibtransaktionen auf einzelnen datensätzen eines operativen Systems
Relevant für SachbearbeiterInnen auf operativer Unternehmensebene
Online Analytical Processing (OLAP)
—> Ziel: strategische Datenanalyse
Inetraktive datenanalyse durch komplexe ad-hoc-Abfragen auf integrierten Datenbeständen aus heterogenen Quellen
Relevant für Strategische Unternehmensführung (Management, Controlling, etc.)
*Für OLAP-Zwecke sind operative Datenmangementsysteme (VL 2-6) (…) ungeeignet.
*OLAP arbeitet auf der Wissensebene der Wissenspyramide
*gehört zu Business Intelligence (BI) (“OLAP” bezeichnet die analytische Auswertung von Datensätzen im Rahmen von Business Intelligence)
Realtionale Abbildung des Data Cubes:
Anlegen von Dimensionentabellen (1 tabelle pro Dimension) und einer Faktenaktentabelle
Faktentabelle:
pro Dimension ein Fremdschlüsselattribut, sowie die (numerischen) Faktenwerte
Primärschlüssel der Faktentabelle besteht aus allen ihren Fredschlüsselattributen
Dimensionstabellen:
pro dimension eine tabelle; Spaltn der tabelle jeweils die unterschiedlichen Hierarchiestufen (bei star schema zumindest)
Die niedrigste Hierarchiestuf bildet jeweils den Primärschlüssel
Vier wesentliche Eigenschaften eines Data Warehouse
Fachorientierung (subject-oriented)
Aufgabe des Systems besteht in modellierung betriebl. Sachverhalte, nicht in in Erfüllung operativer Aufgaben.
Integrierte Datenbasis (integrated)
Datenverarbeitung findet auf einer aus mehreren Datenquellen integrierten Datenbasis statt.
Nicht-flüchtige Datenbasis (non-volatile)
Datenbasis ist stabil, d.h. einmal eingefügte Datensätze unterliegen keinen weiteren Änderungen. (Quasi wie Archiv. neue daten JA, aber nicht alte verändern!)
Historische Daten (time variant)
Daten müssen über langen Zeitraum (mehrere Jahre) verwahrt werden, um Vergleiche über die Zeit zu ermöglichen.
Abfrage eines Konsolidierungspfads im Star-Schema
Um die Verkaufszahlen von Familienkarten an einem bestimmten Standort für einen
bestimmten Zeitpunkt mit SQL abzufragen, kann man einen Star-Join zwischen den
Tabellen bilden und das Ergebnis mit einer geeigneten WHERE-Bedingung auf die rele-
vanten Einträge filtern.
Data Warehouse System
Ein Data Warehouse Sstemn ist ein OLAP-System (online analytical processing) und unterstützt das Management bei der strategischen Entscheidungsfindung durch bereitstellung einer entsprechenden Datengrundlage.
Dimensionstabellen
Je Dimension eine eigene Tabelle.
-> Spalten d. tabelle sind jeweils die Hierarchiestufen der Dimension
-> Die niedrigste hierarchiestufe bildet dann den Primärschlüssel (z.B. Land, Region, Stadt -> Stadt niedr. Hierarchiestufe)
(bei Star-Schema)
Primärschlüssel der Faktentabelle
besteht aus allen ihren Fremdschlüsselattributen.
Hierarchisierungen von Dimensionen
Eine parallele Hierarchie liegt vor, wennes unterschiedliche Aggregierungsstufen gibt, die keine hierarchische Beziehung zueinander aufweisen (z.B. Altersgruppe und Geschlecht).
Last changed12 days ago