Big Data
Große strukturierte, sowie unstrukturierte Daten, die von verschiedenen Stellen jeden Tag entstehen
3 V:
Volumen -> Masse der Daten
Velocity -> Geschwindigkeit der Entstehung der Daten
Variety -> Vielfalt der verschiedenen Daten
Data Lake
Sammlung von allen Daten, die entstehen und im ursprünglichen meist unstrukturiertem Zustand gespeichert werden. Durch das ETL werden die Daten von einem Data Lake in ein Data Warehouse überführt.
Clickstream Analyse
Analyse und Beschreibungen des Nutzenverhaltens über mehrere Websiten verteilt
Data Warehouse Definiton
Zentrales Datenbanksystem eines Unternehmens -> Single Source of Truth
Die Daten werden zusammen getragen und in verschiedene Daten unterteilt -> Daraus bilden sich die Data Marts
Daten liegen strukturiert vor
Data Warehouse Funktionen
Relationale Datenbank
ETL-Lösung
Analyse, Berichtstool
Visuelle Darstellungen
Elemente und Aufbau eines Data Warehouse
4 Data-Warehouse Architekturen
Einfach
Gemeinsame Darstellung der Daten, Ein Pool an Daten
Einfach mit Staging Area
Bereinigung vor dem einführen der Daten in eine Staging-Area
Hub- and Spoke-System
Hinzufügen von Data Marts
Sandboxes
private, sichere Bereiche ohne
Data Marts
Verteilung von Speicherdaten
-> Bei vielen Daten werden die Daten in den Data Marts als eigene Daten dargestellt
-> Daten werden unter Bereiche aufgeteilt
Star-Schema
Unterteilung in
Faktentabellen
Dimensionstabellen
Basierend auf Schnelligkeit nicht auf Normalisierung
Dimensionstabellen sind denormalisiert
Enthalten
Geschäftsdaten
Geschäftsereignisse
typische Inhalte die während der Benutzung verwendet werden
Hilfstabellen für die Faktentabellen
Enthalten Infos für die Objekte, dessen Daten vom Geschäft wir in in den Faktentabellen speichern
Snowflake Architektur
Alle Daten liegen in der 3 NF vor im Gegensatz zum Starschema
Bessere Ordnung <-> Langsamer Zugriff auf Daten
In-Memory Datenbanken
Transaktionsverhalten von Data Warehouses
Was ist ETL
Extraction
Transformation
Load
Prozess zur Überführung von externen Daten in ein Data Warehouse
Extraktion
Datenextraktion aus Datenquellen
Auswahl der passenden Daten für das Warehouse
regelmäßige Extraktion der Daten für die Aktualität
Implizit oder expliziter Start
Anpassen der Daten an das Zielformat
Bereits in einer Datenbank speichern, um Daten zu sichern
In Warehouse oder extern
Ablauf der Einzelschritte
Physische Verschiebung der Daten vom Transformationsbereich in das finale Data Warehouse
Integrität muss gesichert sein
Protokollierung, um eventuelle Fehler, wiederherzustellen
Staging Area
temporärer Zwischenspeicher für ankommende Daten aus Rohdatenquellen, die in das Data Warehouse überführt werden sollen
Daten werden aufbereitet und transformiert
Anwendung von Datenverifizierung (Syntaxprüfung)
Frequenz der Datenladung
BI
Business Intelligence (BI) ist ein technologiegetriebener Prozess zur Analyse von Daten und zur Präsentation verwertbarer Informationen, der Führungskräften, Managern und anderen Endanwendern hilft, fundierte Geschäftsentscheidungen zu treffen.
Zuletzt geändertvor 6 Monaten