Data types
RMDBS (relational databases)
wie orders, bookings, Zahlungen
Tabellen mit klaren Datentypen (strings, integers, dates, etc.)
Daten mit falschem Datentyp werden nicht in die DB aufgenommen
RMDBS
mapping data types?
automatisierte ingestion
Daten haben hohe Volatilität, bei Amazon werden jede Sekunde zig Befehle durchgegeben
Files
FTP (File Transfer Protocol)
unterschiedliche Formate (JSON, CSV, XML…)
text files haben keine Struktur wie RMDBS
parse files: versucht Schlüssel:Wert paare oder strukturierte Daten in Files zu finden
Schemata ändern sich schnell in Files
sind meistens Snapshots of datasets, selten Echtzeit wie RMDBS
SaaS data via API (softwareanwendungen verbinden)
meisten SaaS erlauben REST API
erlaubt einfachere Kommunikation mit anderer Software, weil gleiche Prinzipien eingehalten werden
trotzdem, viele SaaS nutzen eigene API Methoden, was SaaS data herausfordernd in data platform bringen lässt
wenn mehrere SaaS verwendet werden, muss man jeweils unterschiedliche ingestion pipeline nutzen und regelmäßig updaten
Data Streams
Events, die zu einem bestimmten Zeitpunkt passieren, wie: click auf website mit zugehöriger IP adresse, browser typ etc.)
im ecommerce dinge in und aus Warenkorb legen
Aktivitäten im Bankaccount
RMDBS sagen, was momentan im Warenkorb liegt, Streams zeigen alle Aktionen die zum aktuellen Warenkorb geführt haben
wichtig für analyse
Data Streams 2
sind auf spezielle Struktur von Daten beschränkt
streaming daten haben oft Duplikate, damit muss ingestion pipeline umgehen können
Nachrichten können nicht verändert, nur neu geschrieben werden
hohe volumen, ingestion pipeline muss damit umgehen können
Zuletzt geändertvor einem Jahr