Nenne mir die 6 Schritte des Entscheidungszyklus (Decision Cycle)
Collect (Sammeln)
Prepare (Aufbereiten)
Examine (Untersuchen)
Model (Modellieren)
Decide (Entscheidung)
Act (Ausführen)
Was ist ein Distributed File System?
Vorteile?
Ein DFS ist ein Dateisystem, das über mehrere Rechner hinweg Daten speicher und verwaltet. Es ermöglicht den Benutzern, auf Datein auf verschiedenen Rechnern zuzugreifen, als ob sie auf einem einzigen Rechner gespeichert wären.
Ausfallsicherheit
Lastenverteilung
Ablauf traditioneller business analytic prozess?
Starte mit Endnutzer-Anforderungen, um gewünschte berichte und analysen zu identifizieren
definiere eintsprechende Datenbankschema und abfragen
identifiziere erforderliche datenquellen
erstelle eine ETL-Pipeline um Daten zu Extrahieren
Analysiere Daten und erstelle Bericht
Warum sind Daten wertvoll? inkl. Beispiel
Wann sind daten nicht wertvoll
Grundsätzlich sind alle Daten wertvoll!
z.B. Kann ein Restaurant Kundendaten verwenden um Personalisierte Marketingkampagnen (mit z.B. beliebtesten Essen) zu erstellen
Daten können aber auch nicht wertvoll sein wenn z.B.
die daten bereit veraltet sind
nicht genau oder fehlerhaft sind
nicht geschützt und somit ein Risiko darstellen
Vergleich alter Weg vs neuer Weg (mit Data Lake)?
Alter Weg:
Struktur
Aufnehmen
Analysieren
Neuer Weg:
Nach dem neuen Weg werden sämtliche Daten erst aufgenommen und danach geschaut ob sie benötigt werden oder nicht. Daher können auch im nachhinein noch neue Analysierungen durchgeführt werden, da die daten da sind.
Vergleich zwischenb File und Object mit Beispiel?
File (Datei):
Ist eine Art von Speichermedium, das Dateien in einer Ordnerhirachie speichert.
Object (Objekt):
Eine Art der Speicherung, bei der die Daten mit Metadaten verknüft werden.
Was sind Metadaten?
Metadaten sind Informationen über bestimmte Daten.
Sie sind für jeden Typ spezifisch
Ermöpglichen die automatisierte Verwaltung
Stellen Integrität, Aufbewahrung und authentizität sicher
Für was eignet sich Objektspeicherung?
Unstrukturierte Daten-Workloads
Kapazitätsanforderungen über Hunderte von TBS
Verteilter zugriff auf Inhalte
Datenarchivierung: Dokumente, E-Mails, BakcUps etc.
Speicher für Fotos, Videos
Nicht Hochleistungsanwendungen
Grenzen von SQL?
extrem große Datenmengen
Vielfalt an Strukturen und Formaten
Vorteile/Nachteile SQL?
Vorteile:
Keine Duplikate
Datenintegrität
Transaktionen
Sicherheit
Datenkonsistenz
Nachteile:
Leistung
Arbeiten in verteilter Umgebung
Zusätzliche Sprache zum Bearbeiten von Daten
Skalierung
Was ist NoSQL und was sind Vorteile?
strukturierte Speichersoftware die entwickelt wurde zu speicherung von großen Datensätzen
verfügbar, skalierbar, konsistent
einfach zu benutzen
CAP theorem?
Consistency
Availability
Partitioning
Vorteile / Nachteile NoSQL?
massive Skalierbarkeit
hohe verfügbarkeit
niedrige Kosten
flexibel
semi-strukturierte Daten
begrenzte Abfragemöglichkeiten
nicht standardisiert
noch eine Entwicklung
Wann verwendet man SQL oder NoSQL?
SQL:
Datenintegrität ist unerlässlich
Auf Standards basierende, bewährte Technologie und Support
dann bevorzugen sie SQL
NoSQL:
Datenanforderungen sind unabhängig, unbestimmt oder entwickeln sich weiter
Projektziele sind einfacher oder weniger spezifisch und ermöglichen den sofortigen Programmierbeginn
Geschwindigkeit und Skalierbarkeit sind unerlässlich
dann bevorzugen sie NoSQL
Nenne mir einen Big Data use case.
Predictive Analytics -> Predictive Maintenance
z.B.
Eine CNC-Fertigung übermittelt sämtliche Status-Daten wie z.B. Leistung, Temperatur, Umdrehungen, Auslastung usw. in ihre Cloud. Aus diesen kann auf Basis von bisher bekannten Fehlermustern und Verschleiß jederzeit eine Zustandsangabe getätigt werden und proaktive der Service angestoßen werden oder Ersatzteile bestellt werden.
Zuletzt geändertvor 2 Jahren