Definition von Data Processing
Umwandlung von Rohdaten zu sinnvollen Informationen durch einen Prozess (Daten nutzbar, verständlich machen, dass sie zur Entscheidungsfindung helfen können)
Hauptphasen des Data Processing
Erfassung (Sammeln der Daten aus verschiedenen Quellen)
Aufbereitung (Organisieren und Bereinigen)
Eingabe (In anderes System gespielt)
Verarbeitung (Analyse und Anwendung der Daten)
Ausgabe (Präsentation der Daten in nützlicher Form)
Rollen des Data Processing
Langfristige Datenverwaltung
Verbesserung der Datenqualität
Entscheidungsunterstützung
Compliance und Risikomanagement (Einhaltung von Datenschutzstandards)
Transformation von Rohdaten in Wissen
Datenbereinigung bei strukturierten Daten
Duplikatentfernung
Formaierungsfehler behben
Datentypen validieren
Standardisierung
Fehlende Daten kompnesieren
Outlier-Detection
Datenbereinigung bei unstrukturierten Daten
Merkmalsextraktion
Textextraktion
Machine Learning (z.B. Klassifizierung)
Rauschen (Entfernung Script Tags)
Datenbereinigung - Allgemeine Aufgaben
Automatisierung: Festlegung von Regeln, nutzen von Skripten)
Dokumentation (Beschreibung und Ausführung bestimmter Parameter (z.B. Fehlercodes)
Zusätzliche Verarbeitung auf Basis von Expertenwissen
Anonymisierung
Strategien zur Kompensation fehlender Daten
Ersetzen: Fehlender werden einheitlich bis Wert ersetzt
Verwerfen: Daten werden nicht in zu analysierenden Datensatz übernommen
Interpolation: Mittelwerte berechnen und nutzen
Inputation: Fehlende Werte werden aus ähnlichen Zeilen hergeleitet
Werkezuge des Data Processings
Phyton (Pandas, NumPy)
R
Matlab
PowerBI
..
Datenexploration - Bildanalysen
Anzeigen der Bilder
Histogramm der Pixelwerte (Intensity oder Channel Distribution)
Statistische Kennzahlen (Mittelwert Helligkeit, Standardabweichung)
Haufigkeitsanalysen von Objekten und Merkmalen (Features wie Texturen)
Datenexploration - Audioanalysen
Waveform Plot (Amplitudenänderungen, Analyse der Struktur und Dynamik)
Zooming auf einzelne Abschnitte
Spektorgramm (Darstellung der Frequenzinhalte über Zeit, Identifikation von wiederkehrenden Frequenzen)
Clustering
K-Means: Gruppierung basierend auf extrahierten Merkmalen wie Sprecherwechsel, Musikgenre, Hintergrundgeräuscherkennung)
Hierarchical Clustering: Erstellung von Dendrogrammen zur hierarchischen Gruppierung von Audidateien)
Datenexploration - Textanalysetechniken
TF-IDF Analyse (Term Frequency-Inverse Document Frequency): Gewichtet die Wörter basierend darauf, wie häufig sie in einem Dokument vorkommen im Vergleich zu ihrer Häufigkeit in einem Korpus, um die Wichtigkeit der Wörter zu identifizieren.
N-Gramm-Modelle: Erstellt Kombinationen von n aufeinanderfolgenden Wörtern im Text, um den Kontext besser zu erfassen und die Beziehung zwischen den Wörtern zu verstehen.
Sentiment-Analyse: Bestimmt die Stimmung oder emotionale Tönung eines Textes, um zu erkennen, ob die Meinung positiv, negativ oder neutral ist.
Entitäten-Erkennung (Named Entity Recognition, NER): Identifiziert Namen von Personen, Orten, Organisationen und anderen spezifischen Informationen im Text, was hilft, wichtige Aspekte des Textinhalts hervorzuheben.
Topic Modeling: Nutzt statistische Modelle, um die zugrundeliegenden Themen in einem großen Textkorpus zu entdecken und zu gruppieren, was bei der Analyse von Trends und Mustern nützlich ist.
Kollokationsanalyse: Identifiziert häufig zusammen auftretende Wörterpaare oder Wortgruppen, um tiefere Einblicke in sprachliche Muster und Kontextbeziehungen zu gewinnen.
Clustering-Analyse: Gruppiert ähnliche Textdokumente oder Textabschnitte basierend auf ihrer inhaltlichen Ähnlichkeit, was bei der Organisation und Kategorisierung von Textdaten hilft.
Vorgehen bei textanalysen
Tokenisierung: Aufteilung der Texte in einzelne Wörter
Entfernung von Stoppwörtern (der, die, das —> keine semantische Bedeutung)
Lemmatisierung (Wörter werden auf Grundform zurückgeführt, z.B. besser zu gut)
Bestimmung der Worthäufigkeit oder TF-IDF
Datenexploration - Strukturierte Daten
Boxplots
Box zwischen 1. und 3. Quartil —> mittlere 50%, Median
Violinen Diagramm gibt zusätzlich Dichte Verteilung mit an
Histogramme
Häufigkeitsverteilung, Ausreißererkennung
x-Ache als Intervall, Gruppe, y-Achse Häufigkeit)
Parallele Koordinatensysteme (Pro Variable eine Achse, Erkennung von Mustern)
Scatterplots (Streudiagramm, jede Achse bildet eine Variable ab —> Erkennung Beziehung und Korrelation von Variablen)
Korrelationsanalysen (Messung der Stärke und Richtung der Bezeihung mehrerer Variablen, 1: perfekte positive, 0 keine, -1 negative)
Chi-Quadrant-Test (Bewerter Abhängigkeit zweier kategorialer Variablen —> ANOVA sind es numerische)
ANOVA-Test (Analysis of Variance)
Prüft ob signifikaten Unterschiede zwischen Mittelwerten mehrerer Gruppen gibt
Entscheidungshilfe zur detaillierteren Analyse bestimmter Variablen oder Nutzung als Feature für Klassifikation
Was ist Datentransformation?
Umwandlung oder Aggregation von Daten in eine Form, die für spezifische Analysen oder Modelle geeignet.
Kann auch so etwas wie Datenbereinigung beinhalten oder als Nachschritt gesehen werden
Prozess der Datentransformation
Datenermittlung: Identifikation relevanter Datenquellen
Daten-Mapping: Definition der Zuordnungen zwischen Quelldaten und Zeilstrukturen
Code generierung: Skripte und Transformationregeln erstellen
Ausführung des Codes: Ausführung der Skripte
Überprüfung: Sciherstellen und Kontrolle der transformierten Daten
Methoden und Techniken der Datentransformation
Überabeitung (Revising): Datenbereinigung und Datenstandardisierung
Manipulation: Datenumwandlung, Datenanreicherung
Kombinieren: Datenintegration
Datenverglättung: Datenfilterung, Rauschunterdrückung
Datenaggregation: Datengruppierung, Durchschnittsbildung
Datenverschlüsselung (Data Masking)
Automatisierung von Data Processing (techniken)
Real-Time Processing
Batch Processing (Verarbeitung groér Datenmengen zu festgelegten Zeitpunkten)
Multi Processing (Simultane Verarbeitung durch mehrere Prozessoren)
Time Sharing (Nutzung eines einzelnen Prozessors durch mehrere Benutzer gleichzeitig)
Distributed Processing: Effiziente Verarbeitung über mehrere Server
Best Practices
Datenqualität sicherstellen
Datenstrukturierung (Standardisierung=Konsistenz und Modularisierung)
Wiederkehren Aufgaben automatisieren
Datenintegrität und Sicherheit durch Backups und Zugriffskontrollen
Datenschutz beachten
Nur Daten speichern, die man wirklich braucht
Zuletzt geändertvor 6 Monaten