Einführung
Herz der Datenplatform
hier werden Daten transformiert und validiert
landing, archiving, staging, and production areas
Transformation
Daten werden gesäubert
Daten werden nach Business Logik zusammengeführt. Zb zwei Files
Daten fließen durch mehrere Transformationsstufen, wo obiges passiert -> Daten werden immer nützlicher
Transformation stages
auf jeder Stufe werden Daten gespeichert und verarbeitet
Zwei Arten von Verarbeitung
gewöhnliche Verarbeitung für alle Daten
z.b: Daten vereinheitlichen
Standardisierung vereinfacht ingestion Prozess
Business logische Verarbeitung für einzelne Daten
z.b: Für Marketing Campagne nur bestimmte Daten
Processing Areas
Processing Areas 2
Landing area
Daten kommen von ingestion layer. Rohdaten werden hier kurzfristig gespeichert
Staging area
Rohdaten gehen durch gemeinsame Transformation
Überprüfung der Datenqualität, dann in staging area gespeichert
Archive area
Rohdaten aus Landing area werden hier gespeichert
Production area
Daten aus staging area werden nach Business logik transformiert und gespeichert
Failed area
nach jeder Ebene müssen Daten, die nicht dem Prozess genügen (Bugs im Pipeline code, Daten halten Standard nicht ein, etc.) aussortiert und hier gespeichert werden
gewöhnliche Datenverarbeitung
alle einkommenden Daten werden in einem Datenformat vereint
wir nutzen Avro und Parquet (binary file format)
Vorteile von binary
binary files nehmen wenig Speicher ein
sie zwingen zu einem bestimmten Format
Zeilen- und spaltenorientierte Datenformate
meistens Zeilenformate
Zeilenformate (Avro) sind gut wenn man alle Zeilen und Spalten lesen will, zb. in der staging area für data exploration
wenn du nur einige Zeilen brauchst, Verschwendung von Ressourcen
parquet sinnvoll, wenn du zb nur Column 3 brauchst, dann schaust du dir nur Block zwei an. Weniger Verwendung von Ressourcen.
Daten Deduplication
Sind John Smith und Jonathan Smith die gleiche Person?
RMDBS unterstützen unique indexes und primary keys Eigenschaften der Daten, sie haben strikte Schemata, welche Daten gespeichert werden. Cloud nicht weil distributed?
Data lakes haben unterschiedliche Qualität von Daten
Nutzer wollen Sicherheit bei Datenqualität
Ingestion in die Datenplatform findet aber nicht im Warehouse statt
Zuletzt geändertvor einem Jahr