Data Platform reminder
Cloud Data Platform ist Überbegriff
integriertes set von Technologien, die den End-to-End Datenumgang eines Unternehmens verwalten
Cloud seperiert Speicher von Daten und rechnen mit Daten
Types of Data Platforms
Enterprise Data Platform (EDP)
Zentralisierter Eingang zu Daten des Unternehmen
on premise (Daten lokal im Unternehmen gespeichert) oder hybrid
traditionelle Datenquellen wie OLTP (Echtzeint-Transaktionen)
Modern Data Platform (MDP)
flexibler
future-proof (agil auf Zukunft anpassbar)
verarbeitet unterschiedliche Volumen und Varieties von Daten
kann natural language processing (NLP) betreiben
Data Analytics Platform, Big Data Platform, or Big Data Analytics Platform
speziell für Datenanalyse, kann komplexe Abfragen auf riesige Datenmengen anstellen
scalability, availability, security, and performance
visualisiert Ergebnisse
Customer Data Platform (CDP)
bringt unterschiedliche Kunden zusammen: CRM, transactional systems, social media, emails, websites, digital ads, or eCommerce stores
erstellt Nutzerprofil für Marketing oder Produktverbesserung
Data Warehouse
OLTP, OLAP
Use cases WH
data mining: Muster im Datensatz erkennen durch ML und Statistik
OLTP: echtzeit analyse von Transaktionsdatenzb ecommerce oder Kreditkarten
OLAP: multidimensionale Analyse von großen Datenmengen
store: Business optimierung, Sales, Marketing, minimize inventory, pricing, customer buying behavior
insurance: better risk mgmt
DWH-Structure
bottom tier: ETL, usually relational DB
middle tier: wie organisieren und fragen wir Daten ab? ROLAP (relational), MOLAP (multidimensional) and HOLAP (hybrid)
top tier: front end user face wie reporting tool, ad-hoc Datenanalyse
Schemas in DWH
to organize data, two main
star schema: schnell, einfach
snowflake: genauere Aufgliederung der Daten, langsamer
Unterschiedliche Typen von DHW
DHW-Software:
lincense purchase, on premise, more security over data
DHW-appliance:
man kauft CPUs, storage, operating system, and data warehouse software
Cloud DHW:
WH in der Cloud
Data Lake
Data swamp
Data Lake Eigenschaften
braucht am Anfang keinen speziellen Use case
günstige backups, data audit (beurteilen von daten)
günstig, flexibel, skalierbar
nachteile: langsam weil viele Daten, keine Governance
Data Hub
Data Hub Eigenschaften
Datenintegration von verschiedenen Quellen
Models: describes how the data stored in the hub is structured and consumed.
Governance: defines data privacy, access, control, security, retention and disposal policies.
Integration: defines the style and method of working with the data (API, ETL)
Persistance: defines the category of data store (e.g., relational database)
Data Hub Vor- und Nachteile
Datensichtbarkeit: alle Daten werden indexiert und gefiltert
Echtzeitanalyse
Hohe Sicherheit: Identity and Access Management (wer auf Daten zugreifen darf)
limitierte Analysemöglichkeiten
limitierter Speicherplatz
Zuletzt geändertvor einem Jahr