Kap. 2 Big Data

Buffl

Ind. Digitalisierung (Paula)

by Lukas R.

Data Engineering

Nenne Anwendungsbeispiele von Data Engineering und Datenanalyse im industriellen Kontext.

Wie charakterisieren sich semistrukturierte Daten? Nenne zwei Beispiele für Formate.

Wie unterscheiden sich XML und JSON?

XML beansprucht mehr Speicherplatz, da immer ein Start- und ein Endtag pro Zeile
JSON kompakter, da nur Schlüsselwertpaar gebraucht
XML lässt es intuitiver zu, hierarchien zwischen Daten und Attributen darzustellen (bei JSON komplexer)

Wie bzw. Wo können industrielle Daten, die in großen Mengen vorliegen, gespeichert werden?

On Premise
Cloud
Edge

Nenne Vorteile, die die On-Premise-Datenverarbeitung und -speicherung ggü. der in der Cloud hat.

keine Abhängigkeit von Cloud-Anbietern (bzgl Preissteigerungen, aber auch Datengeheimhaltung etc.)
Optimierung der Ausstattung für Effizienzsteigerung möglich
Kontrolle über Security- und Zugangsbeschränkungskonzept

Nenne Vorteile, die die Cloud-Datenverarbeitung und -speicherung ggü. der in On-Prem-Rechnern hat.

besser skalierbar (bei unvorhersehbaren Lastschwankungen)
keine Notwendigkeit, selbst in Know-How und Ausstattung für ein Rechenzentrum zu investieren
Flexibel Ressourcen hinzu- und rückbuchbar
Datensicherung / Ausfallsicherheit durch Cloudanbieter gewährleistet

Wie kann man Datenspeicherarten nach Zugriffshäufigkeit klassifizieren?

Wie kann man Datenverarbeitungsansätze je nach Verarbeitungshäufigkeit unterscheiden?

Batch Analytics
Stream Analytics
Hybrid-Ansatz 1. Lambda-Architektur
Hybrid-Ansatz 2: Kappa-Architektur

Welche Datenspeicherungs-Strukturen gibt es und wie unterscheiden sie sich?

Data Warehouse (Schema on Write, bevorzugt bei bekannten Verwendungszwecken und häufigen Zugriffen)
Data Lake (Schema on read, bevorzugt bei ungewissen Use Cases)

Beschreibe den ETL-Prozess

Der ETL-Prozess (Extract, Transform, Load) wird verwendet, um Daten aus verschiedenen Quellen zu extrahieren, zu transformieren und in eine Zieldatenbank oder ein Data Warehouse zu laden.

Welche Art von Data Warehouses / Datenbanken gibt es?

relationale Datenbanken
- basieren auf SQL
- stark vorstrukturierte Tabellen (Schema muss vor Dateneintragung festgelegt werden)
NoSQL Databases
- flexibler und weniger starr strukturiert als SQL, dadurch besser für schwach strukturierte Daten geeignet
- Arten:
  - Key-Value-Store
  - Document Store
  - Graph Database

Welche Arten von NoSQL Datenbanken gibt es?

Key-Value-Store
Document Store
Graph Database

Nenne die Eigenschaften von Key Value Store Datenbanken.

Nenne die Eigenschaften von Document Store Datenbanken.

Nenne die Eigenschaften einer Graph Database

Nenne die 5 Vs.

Nenne Arten der Skalierung im Bereich Data Engineering.

Was ist Vertikale Skalierung?

Was ist horizontale Skalierung?

Was sind die bestandteile eines Hadoop File Systems?

Name Node
Client(s)
Racks
Data Nodes
Blöcke

Wie kann ein Client in einem Apache Hadoop System eine neue Datei schreiben?

Client informiert Name Node über Größe der Datei und den gewünschten Redundanzgrad und bekommt einen Block zugeteilt
Er schreibt dann in diesen und n weitere Blöcke (als Sicherungen, dafür in anderen Racks) die Daten hinein

Wie kann ein Client im Apache Hadoop eine Datei lesen?

Client fragt bei Name Node an, wo eine bestimmte Datei liegt (in welchem Rack/Data Node) und kann dann selbst alles von dort lesen.

Wieso wird im Hadoop File System der Name Node nicht zum Bottleneck?

Im Hadoop File System (HDFS) wird der Name Node nicht zum Bottleneck, weil das Design von HDFS ihn hauptsächlich für die Verwaltung von Metadaten nutzt, während die eigentlichen Datenoperationen direkt zwischen Client und Data Nodes ablaufen.

Welche zwei Hauptkomponenten bildet Apache Hadoop?

Hadoop Distributed File System (HDFS): Ein verteiltes Dateisystem zur Speicherung großer Datenmengen.
Map-Reduce: Ein Framework zur verteilten Verarbeitung von Daten.

Wie funktioniert das Hadoop Distributed File System (HDFS)?

Antwort:

Dateien werden in Blöcke von 64 MB oder 128 MB aufgeteilt.
Jeder Block wird auf mehreren Data Nodes repliziert (standardmäßig dreifach).
Der Name Node verwaltet die Metadaten und die Position der Blöcke.
Data Nodes speichern die eigentlichen Daten.

Welche Vorteile bietet das Konzept der Datenlokalität in Hadoop?

Antwort: Daten werden dort verarbeitet, wo sie gespeichert sind, um Netzwerklast zu reduzieren und die Verarbeitungsgeschwindigkeit zu erhöhen.

Was ist der „Replication Factor“ in Hadoop FS, und warum ist er wichtig?

Antwort: Der Replikationsfaktor gibt an, wie oft ein Datenblock im Cluster dupliziert wird. Er ist wichtig, um Ausfallsicherheit zu gewährleisten und Datenverluste zu vermeiden.

Was bedeutet „Map-Reduce“ und wofür wird es verwendet?

Antwort: Map-Reduce ist ein Programmiermodell zur verteilten Verarbeitung großer Datenmengen. Es teilt Aufgaben in zwei Phasen:

Map: Daten werden in Schlüssel-Wert-Paare umgewandelt.
Reduce: Die Schlüssel-Wert-Paare werden aggregiert.

Wie unterscheidet sich Map-Reduce von herkömmlichen Datenverarbeitungsmodellen?

Antwort:

Map-Reduce verarbeitet Daten parallel und verteilt Aufgaben auf mehrere Knoten.
Es minimiert den Datentransfer im Netzwerk durch das Konzept der Datenlokalität.

Welche Vorteile bietet Hadoop im Vergleich zu traditionellen Datenbanken?

Antwort:

Horizontale Skalierung auf Commodity-Hardware.
Verarbeitung großer, verteilter Datenmengen.
Unterstützung für semi- und unstrukturierte Daten.

Was sind die Hauptaufgaben des Name Node in HDFS?

Antwort:

Verwalten der Metadaten über die Dateistruktur (z. B. Blöcke und deren Speicherorte).
Koordination der Data Nodes.
Sicherstellen, dass Daten verfügbar und repliziert sind.

Welche Rolle spielen Data Nodes in HDFS?

Antwort:

Sie speichern die Datenblöcke.
Sie melden regelmäßig ihren Status an den Name Node.
Sie führen Lese- und Schreiboperationen auf Anforderung durch.

Was passiert, wenn ein Data Node in HDFS ausfällt?

Antwort:

Der Name Node erkennt den Ausfall und startet eine Replikation der betroffenen Blöcke auf andere aktive Data Nodes.

Welche Einschränkungen hat das Map-Reduce-Modell von Hadoop?

Antwort:

Es ist schwer für Echtzeitanalysen geeignet (Batch-orientiert).
Die Programmierung erfordert, dass der Algorithmus in Map- und Reduce-Phasen zerlegbar ist.
Die Ausführung ist bei kleinen Datenmengen ineffizient.