Was ist ein Data Warehouse und wie zeichnet es sich aus (nach Innmon)?
Ein Data Warehouse ist eine themenorientierte, integrierte, nicht-volatile, zeitvariable Sammlung von Daten zur Unterstützung der Entscheidungsfindung des Managements. ((W. H. Inmon, 1996)
Fachorientierung an Themenbereichen des UN
Integration von unternehmensweiten & externen Daten aus operativen Datenbeständen
Nicht-Volatilität: Daten im DWH werden dauerhaft abgelegt und für Analyse zur Verfügung gestellt. Sie werden i.d.R. nicht mehr geändert, überschrieben oder entfernt.
Zeitraumbezug als Bestandteil der Daten,
Welche Ebenen gibt es in einem Data Warehouse und wofür sind sie da?
Staging Area: Datenspeicherung so wie sie angeliefert werden (Bsp: Laderampe im Lebensmittelladen)
Cleansing Area: Bereinigung der Daten. Daten müssen ausgefiltert, korrigiert und in einheitliche Form transformiert werden. (Bsp: Kommissionier Bereich vor Warenlager)
Core: Themenspezifisch strukturierte Datenablage über längeren Zeitraum auf die kein direkter Zugriff möglich (Bsp: Hochregallager)
Data Marts: Teilmengen der Daten auf die zugegriffen werden kann. (Bsp. Kundenbereich)
Metadaten: Fachliche Metadaten enthalten fachliche Beschreibungen bspw. Beschreibung der Attribute, Technische Metadaten beschreiben Datenstruktur etc. , Operative Metadaten beinhalten alle Log-Tabellen, Fehlermeldungen etc.
BI Plattform: Daten können über verschiedene BI Plattformen abgerufen werden wo Tabellen, Diagramme etc. passend dargestellt werden (Bsp: Supermarkt und Restaurant)
Aus welchen Stufen besteht die vierstufige Data Warehouse Grundarchitektur?
Was bedeutet Multi-Dimensionalität?
Im Kontext eines Data Warehouses bezieht sich Multi-Dimensionalität auf die Fähigkeit, Daten auf mehreren Achsen oder Dimensionen zu analysieren und darzustellen.
Durch multidimensionaler Datenstrukturen können komplexe Analysen durchgeführt, indem sie Daten in verschiedenen Kombinationen von Dimensionen schneiden und würfeln.
Ermöglicht tiefergehende Einblicke in Geschäftstrends, Kundenverhalten und andere Aspekte der Daten zu gewinnen
Was ist der Unterschied zwischen einem BI-System und einem DWH?
DWH Speicherung der Daten und BI-System Darstellung und Nutzung der Daten aus DWH.
Warum nutzt man nicht ein relationales Datenmodell?
Weil die Multidimensionalität fehlt und damit die effiziente Berechnung fehlt.
Mit welcher SQL-Erweiterung kann man sehr elegant Pivot-Tabellen für mehrere Dimensionen erzeugen.
Cube operator
Was sind die Stärken eines DWH?
Datenvisualisierung und Berichterstattung: BI-Systeme ermöglichen es, große Mengen an Daten in leicht verständliche Grafiken, Diagramme und Berichte umzuwandeln. Dies erleichtert die Analyse und Interpretation von Daten für Entscheidungsträger.
Datenintegration und -konsolidierung: BI-Systeme können Daten aus verschiedenen Quellen und Systemen integrieren und konsolidieren, unabhängig davon, ob es sich um interne oder externe Daten handelt. Dadurch können Unternehmen einen umfassenden Überblick über ihre Geschäftsaktivitäten erhalten.
Proaktive Analysen und Vorhersagen: Durch die Nutzung fortschrittlicher Analysetechniken wie Data Mining und maschinellem Lernen können BI-Systeme Trends identifizieren, Muster erkennen und zukünftige Entwicklungen vorhersagen. Dies ermöglicht es Unternehmen, proaktiv auf Veränderungen zu reagieren und fundierte Entscheidungen zu treffen.
Was sind die Schwächen eines DWH?
Abhängigkeit von Datenqualität und -verfügbarkeit: BI-Systeme sind nur so gut wie die Daten, die sie verwenden. Wenn die Daten von schlechter Qualität sind oder nicht rechtzeitig verfügbar sind, können die Analysen und Berichte ungenau oder unvollständig sein.
Komplexität und Kosten: Die Implementierung und Wartung von BI-Systemen kann komplex und kostspielig sein. Die Auswahl, Integration und Anpassung geeigneter Tools erfordert oft erhebliche Ressourcen in Bezug auf Zeit, Geld und Fachwissen.
Risiko der Überinterpretation: BI-Systeme liefern zwar wertvolle Einblicke, aber sie können auch dazu führen, dass Benutzer Daten überinterpretieren oder falsche Schlussfolgerungen ziehen. Ohne angemessene Schulung und Interpretationsrichtlinien besteht die Gefahr, dass Entscheidungen auf fehlerhaften Analysen basieren.
Was ist ein Data Lake und was macht es aus?
Data Lake nimmt Daten in orginaler Form direkt von der Datenquelle mit wenige oder ohne Bereinigung, Standardisierung etc.
Transformation erfolgt on-the-fly mit Auswertung.
Was sind die 3 Hauptkomponenten und das Ziel eines Data Lake?
Eine Zielzone für die Rohdaten
Eine Bereitstellungszone, in der Daten unter Berücksichtigung des Analysezwecks transformiert werden
Eine Datenexplorationszone, in der die Daten für Analysen, Anwendungen und maschinelle Lernmodelle genutzt werden
Ziel: Für eine Vielzahl von Anwendungen zu nutzen
Was ist das Hadoop Distribution File System und wie funktioniert es?
Das Hadoop Distributed File System (HDFS) ist ein hochgradig skalierbares, verteiltes Dateisystem, das speziell für die Speicherung großer Datenmengen in einem Cluster von Computern entwickelt wurde. Es ist ein Schlüsselelement in der Hadoop-Ökosystemtechnologie und bildet die Grundlage für die Speicherung von Daten in einem Hadoop-Cluster.
Das Hadoop Distributed File System (HDFS) funktioniert nach Master-Slave-Prinzip, wobei NameNode als Master und DataNodes als Slaves agieren. Hier ist eine grundlegende Erläuterung der Funktionsweise:
NameNode: Der NameNode ist der zentrale Knoten im HDFS. Er speichert Metadaten über Dateien und Verzeichnisse im Dateisystem, wie z.B. Dateinamen, Berechtigungen, Größe, Blockadressen und Replikationsinformationen. Der NameNode speichert diese Metadaten im Arbeitsspeicher für schnelle Zugriffe. Die tatsächlichen Dateidaten werden nicht auf dem NameNode gespeichert, sondern auf den DataNodes.
DataNodes: DataNodes sind die Knoten im Hadoop-Cluster, die die tatsächlichen Daten speichern. Sie halten die tatsächlichen Dateiblocks und sind für das Lesen und Schreiben von Daten zuständig. Die DataNodes berichten regelmäßig an den NameNode über ihren Status und übermitteln ihm Informationen über die verfügbaren Datenblöcke.
Welche Tools gibt es für den Datenimport in ein Data Lake?
Flume
Hauptsächlich Server Logfiles
Automatisierter, zeitgesteuerter oder triggerbasierter Import
Unterstützt Transformation der Daten während des Imports
Sqoop
Begriffszusammensetzung aus „SQL-to-Hadoop“
Ähnlich wie Flume, jedoch stammen die Quelldaten meist aus relationalen DB wie Oracle, MySQL oder SQL Server
Bidirektionaler Datenaustausch theoretisch möglich
Was ist MapReduce (Bereistellungszone)?
MapReduce ist ein Open-Source-Framework, um große Datenmengen in einer verteilten Serverarchitektur wie HDFS zu verarbeiten
Von Google entwickelt 2008
Name aus 2 Funktionsbezeichnungen
Map: Sortierung und Filterung einer Datenmenge (z.B. heute erstellte Warenkorbpositionen)
Reduce: Aggregierung einer Datenmenge (z.B. Summenbildung)
MapReduce Jobs: MapReduce-Datenaufbereitungen müssen in Java geschrieben werden
Ohne Hilfstools sind Programmierkenntnisse für MapReduce Jobs notwendig. Hilfstools sollen diese Hürde vereinfachen
Hive
Ist ein Data Warehousing System für HDFS
HiveQL: SQL-ähnliche Syntax
Benutzer kann MapReduce Jobs mit Hilfe von HiveQL schreiben
Pig
Pig Latin: Skriptsprache für MapReduce Jobs
Warum werden in der Datenexplorationszone noch immer rationale Datenbanken gebraucht? Warum sind NoSQL-Datenbanken nützlich?
In der Datenexplorationszone werden relationale Datenbanken immer noch benötigt, weil sie bestimmte Vorteile bieten, die für die Datenexploration und -analyse wichtig sind:
Datenintegrität und Konsistenz
Starke Abfragesprache
Standardisierung und Erfahrung
NoSQL Vorteile:
Flexibilität des Datenmodells
Skalierbarkeit und Leistung
Unterstützung für unstrukturierte Daten
Was ist das Problem das zum Data Mesh geführt hat?
Data Lake zwar flexible für alle Daten aber es fehlt an Kompetenz zum Verständnis durch sehr viele Arten von Daten!
Was ändert sich alles auf dem Weg zum Data-Mesh?
Was sind die 4 Funktionsprinzipien eines Data Mesh?
Data as a Product
Produkt für die Datennutzenden und domänenorientierte Daten
Usability Merkmale: auffindbar, adressierbar, verständlich, vertrauenswürdig, interoperabel und kombinierbar, eigenständig wertvoll, sicher.
Domain Ownership
Agilität durch weniger teamübergreifende Abstimmungen
bessere Qualität, weil Verwalter mit den Daten vertraut ist
Self-Serve Data Platform
Erleichtert das Auffinden und Nutzung von Datenprodukten
Fachpersonal anstatt Data Scientists entwickeln die Datenprodukte
Federated Computational Governance
Mehrwert durch Aggregation und Korrelation der unabhängigen, aber interoperablen Datenprodukten
Übergreifende Governance-Anforderungen wie Datenschutz & Compliance
Wie spielen die Funktionsprinzipien des Data Mesh zusammen?
Beschreibe das Funktionsprinzip Domain Ownership und nenne ein Beispiel.
Erstellung der Domänen auf der Grundlage der einzelnen fachlichen Bereiche eines Unternehmens.
Data Mesh ist auf der Grundlage der in den einzelnen Domänen verwendeten Sprache und fachlichen Kompetenzen
Auswirkungen des kontinuierlichen Wandels größtenteils auf eine Organisationseinheit und deren Domaine begrenzt
Gutes Verständnis für die Daten in der zugehörigen Domäne
Entgegenwirken der immer größer werdenden Komplexität
Beispiel Streaming Plattform:
Brauchen Inhalte die User einfach abspielen könnnen und nach denen sie nicht lange suchen müssen.
Folgende Domänen könnten für einen Data Mesh genutzt werden:
Media-Player-Domäne: Für mobile und webbasierte Apps zum Abspielen der digitalen Medien zuständig
Listener-Domäne: Daten zu typischen Nutzer-Vorlieben-Profile
Listener-Session-Domäne: Playlist-Analyse der Hörerinteraktionen
Recommendation-Domäne: Erstellt personifizierte Empfehlungen
Emerging-Artist-Domäne: Sucht neue, trendy Musikgruppen
Beschreibe das Funktionsprinzip Data as a Product und nenne ein Beispiel.
Maximal viele nützliche Daten
Dies kann man folgendermaßen messen:
Messung des Erfolgs durch die Weiterverwendung/Adaptionsrate
Anzahl der Nutzenden
"Kundenevaluationen" bzgl. Zufriedenheit mit Daten
Nutzen im "Endprodukt"
Beschreibe das Funktionsprinzip Self-Serve Data Platform und nenne ein Beispiel.
Folgende Probleme entstehen durch die Verwendung eines Data Mesh:
Kosten für den Betrieb der Datenprodukte, wenn jede Domäne ihre eigenen Daten entwickeln und verwalten muss?
Finden der Data Engineers, die ohnehin schwer zu finden sind, um diese in jeder Domäne zu haben?
Over-Engineering und doppelter Aufwand in jedem Team?
Gibt es eine passende Technologie, um alle Usability-Attribute eines Datenprodukts zu bieten?
Wie sorge ich für eine dezentrale Governance, um Chaos zu vermeiden?
Was ist mit kopierten Daten – wie gehe ich damit um?
Kompetenzen der Teams so erweitern, dass diese Anwendungen für den operativen Betrieb + Daten bereitstellen können?
Beschreibe das Funktionsprinzip Federated Computational Governance
Last changed8 months ago