Data Processing

von Denis T.

Definition von Data Processing

Umwandlung von Rohdaten zu sinnvollen Informationen durch einen Prozess (Daten nutzbar, verständlich machen, dass sie zur Entscheidungsfindung helfen können)

Hauptphasen des Data Processing

Erfassung (Sammeln der Daten aus verschiedenen Quellen)
Aufbereitung (Organisieren und Bereinigen)
Eingabe (In anderes System gespielt)
Verarbeitung (Analyse und Anwendung der Daten)
Ausgabe (Präsentation der Daten in nützlicher Form)

Rollen des Data Processing

Langfristige Datenverwaltung
Verbesserung der Datenqualität
Entscheidungsunterstützung
Compliance und Risikomanagement (Einhaltung von Datenschutzstandards)
Transformation von Rohdaten in Wissen

Datenbereinigung bei strukturierten Daten

Duplikatentfernung
Formaierungsfehler behben
Datentypen validieren
Standardisierung
Fehlende Daten kompnesieren
Outlier-Detection

Datenbereinigung bei unstrukturierten Daten

Merkmalsextraktion
Textextraktion
Machine Learning (z.B. Klassifizierung)
Rauschen (Entfernung Script Tags)

Datenbereinigung - Allgemeine Aufgaben

Automatisierung: Festlegung von Regeln, nutzen von Skripten)
Dokumentation (Beschreibung und Ausführung bestimmter Parameter (z.B. Fehlercodes)
Zusätzliche Verarbeitung auf Basis von Expertenwissen
Anonymisierung

Strategien zur Kompensation fehlender Daten

Ersetzen: Fehlender werden einheitlich bis Wert ersetzt

Verwerfen: Daten werden nicht in zu analysierenden Datensatz übernommen

Interpolation: Mittelwerte berechnen und nutzen

Inputation: Fehlende Werte werden aus ähnlichen Zeilen hergeleitet

Werkezuge des Data Processings

Phyton (Pandas, NumPy)

Matlab

PowerBI

Datenexploration - Bildanalysen

Anzeigen der Bilder
Histogramm der Pixelwerte (Intensity oder Channel Distribution)
Statistische Kennzahlen (Mittelwert Helligkeit, Standardabweichung)
Haufigkeitsanalysen von Objekten und Merkmalen (Features wie Texturen)

Datenexploration - Audioanalysen

Waveform Plot (Amplitudenänderungen, Analyse der Struktur und Dynamik)
Zooming auf einzelne Abschnitte
Spektorgramm (Darstellung der Frequenzinhalte über Zeit, Identifikation von wiederkehrenden Frequenzen)
Clustering
- K-Means: Gruppierung basierend auf extrahierten Merkmalen wie Sprecherwechsel, Musikgenre, Hintergrundgeräuscherkennung)
- Hierarchical Clustering: Erstellung von Dendrogrammen zur hierarchischen Gruppierung von Audidateien)

Datenexploration - Textanalysetechniken

TF-IDF Analyse (Term Frequency-Inverse Document Frequency): Gewichtet die Wörter basierend darauf, wie häufig sie in einem Dokument vorkommen im Vergleich zu ihrer Häufigkeit in einem Korpus, um die Wichtigkeit der Wörter zu identifizieren.
N-Gramm-Modelle: Erstellt Kombinationen von n aufeinanderfolgenden Wörtern im Text, um den Kontext besser zu erfassen und die Beziehung zwischen den Wörtern zu verstehen.
Sentiment-Analyse: Bestimmt die Stimmung oder emotionale Tönung eines Textes, um zu erkennen, ob die Meinung positiv, negativ oder neutral ist.
Entitäten-Erkennung (Named Entity Recognition, NER): Identifiziert Namen von Personen, Orten, Organisationen und anderen spezifischen Informationen im Text, was hilft, wichtige Aspekte des Textinhalts hervorzuheben.
Topic Modeling: Nutzt statistische Modelle, um die zugrundeliegenden Themen in einem großen Textkorpus zu entdecken und zu gruppieren, was bei der Analyse von Trends und Mustern nützlich ist.
Kollokationsanalyse: Identifiziert häufig zusammen auftretende Wörterpaare oder Wortgruppen, um tiefere Einblicke in sprachliche Muster und Kontextbeziehungen zu gewinnen.
Clustering-Analyse: Gruppiert ähnliche Textdokumente oder Textabschnitte basierend auf ihrer inhaltlichen Ähnlichkeit, was bei der Organisation und Kategorisierung von Textdaten hilft.

Vorgehen bei textanalysen

Tokenisierung: Aufteilung der Texte in einzelne Wörter
Entfernung von Stoppwörtern (der, die, das —> keine semantische Bedeutung)
Lemmatisierung (Wörter werden auf Grundform zurückgeführt, z.B. besser zu gut)
Bestimmung der Worthäufigkeit oder TF-IDF

Datenexploration - Strukturierte Daten

Boxplots
- Box zwischen 1. und 3. Quartil —> mittlere 50%, Median
- Violinen Diagramm gibt zusätzlich Dichte Verteilung mit an
Histogramme
- Häufigkeitsverteilung, Ausreißererkennung
- x-Ache als Intervall, Gruppe, y-Achse Häufigkeit)
Parallele Koordinatensysteme (Pro Variable eine Achse, Erkennung von Mustern)
Scatterplots (Streudiagramm, jede Achse bildet eine Variable ab —> Erkennung Beziehung und Korrelation von Variablen)
Korrelationsanalysen (Messung der Stärke und Richtung der Bezeihung mehrerer Variablen, 1: perfekte positive, 0 keine, -1 negative)
Chi-Quadrant-Test (Bewerter Abhängigkeit zweier kategorialer Variablen —> ANOVA sind es numerische)
ANOVA-Test (Analysis of Variance)
- Prüft ob signifikaten Unterschiede zwischen Mittelwerten mehrerer Gruppen gibt
- Entscheidungshilfe zur detaillierteren Analyse bestimmter Variablen oder Nutzung als Feature für Klassifikation

Was ist Datentransformation?

Umwandlung oder Aggregation von Daten in eine Form, die für spezifische Analysen oder Modelle geeignet.

Kann auch so etwas wie Datenbereinigung beinhalten oder als Nachschritt gesehen werden

Prozess der Datentransformation

Datenermittlung: Identifikation relevanter Datenquellen
Daten-Mapping: Definition der Zuordnungen zwischen Quelldaten und Zeilstrukturen
Code generierung: Skripte und Transformationregeln erstellen
Ausführung des Codes: Ausführung der Skripte
Überprüfung: Sciherstellen und Kontrolle der transformierten Daten

Methoden und Techniken der Datentransformation

Überabeitung (Revising): Datenbereinigung und Datenstandardisierung
Manipulation: Datenumwandlung, Datenanreicherung
Kombinieren: Datenintegration
Datenverglättung: Datenfilterung, Rauschunterdrückung
Datenaggregation: Datengruppierung, Durchschnittsbildung
Datenverschlüsselung (Data Masking)

Automatisierung von Data Processing (techniken)

Real-Time Processing
Batch Processing (Verarbeitung groér Datenmengen zu festgelegten Zeitpunkten)
Multi Processing (Simultane Verarbeitung durch mehrere Prozessoren)
Time Sharing (Nutzung eines einzelnen Prozessors durch mehrere Benutzer gleichzeitig)
Distributed Processing: Effiziente Verarbeitung über mehrere Server

Best Practices

Datenqualität sicherstellen
Datenstrukturierung (Standardisierung=Konsistenz und Modularisierung)
Wiederkehren Aufgaben automatisieren
Datenintegrität und Sicherheit durch Backups und Zugriffskontrollen
Datenschutz beachten
Nur Daten speichern, die man wirklich braucht

Beitreten

Vorschau

Author

Denis T.

Informationen

Zuletzt geändert
vor 2 Jahren

Kurs melden