Welche Lernziele gibt es in diesem Kapitel?
Wie können Visualisierungen helfen, Daten zu verstehen?
· Überblick verschaffen + Fehler erkennen
· Erkennen von Mustern & Abhängigkeiten
· Auswahl relevanter Merkmale für das Modeling
Aufgaben der Visualisierung:
Aktion (Spezifität von niedrig -> hoch):
Analysieren: konsumierend (entdecken, präsentieren), produzierend (annotieren, ableiten + aufnehmen)
Suchen:
Erfassen: identifizieren, vergleichen, zusammenfassen
Ziele (Spezifität von niedrig -> hoch):
Gesamtheit der Daten: Eigenschaften, Ausreißer, Trends
Merkmale: einzelne Merkmale (Verteilung, Extrema), mehrere Merkmale (Abhängigkeit, Korrelation, Ähnlichkeiten)
Kapitel Diagramme: Nach welche 4 Kapiteln ordnen wir die Diagramme in der Vorlesung?
Gebe die Imports von Python an
Python allgemein:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
Maschinendaten = pd.read_csv('/content/Data Mining Maschinenpark.csv‘)
Maschinendaten.head(5) #erste 5 Zeilen anzeigen lassen
Maschinendaten.info() #Überblick über Datensatz
Maschinendaten.describe() #Kennzahlen des Datensatzes ausgeben
Was ist das Streudiagramm/Scatterplot. Was sind die Ziele die es verfolgt und Vor und - Nachteile?
· Darstellung von Werten für zwei verschiedene Variablen in 2D-KoSy
· Für bivariate, quantitative Merkmale (weitere Merkmale über Farbe, Form, Größe der Punkte darstellbar)
· Ziel: Entdecken + erkennen von Zusammenhängen zwischen mehreren Variablen
· Pro: verschiedene Abhängigkeiten schnell erkennbar, kann als Basis für darauffolgendes Modell dienen (Regression oder Cluster)
· Con: unübersichtlich bei vielen Merkmalen, Vorauswahl der Merkmale notwendig
Was ist das Zeitreihendiagramm? Was sind die Ziele die es verfolgt und Vor und - Nachteile?
· Darstellung von Beobachtungen eines Merkmals nach zeitlich geordneter Folge
· Für bivariate, quantitative Merkmale, weitere kategorische Merkmale darstellbar
· Ziel: entdecken + erkennen von Trends, Saisonalitäten, Korrelation; Durchführung von Prognosen
· Pro: zeitliche Abhängigkeiten erkennen, kann als Basis für darauffolgendes Modell dienen (Regression oder Cluster)
· Con: unübersichtlich bei vielen Merkmalen, Wahl des Zeitraums kann Wirkung der Visualisierung stark beeinflussen
· Python: kind=‘line‘
Was ist das Histogramm? Was sind die Ziele die es verfolgt und Vor und - Nachteile?
· Darstellung der absoluten o. relativen Häufigkeit eines Merkmals; Ausprägungen werden in Klassen zusammengefasst
· Für kategorische und quantitative Daten; für univariate Merkmale, zusätzlich weitere Merkmale darstellbar
· Ziel: entdecken, erkennen und vergleichen von Häufigkeitsverteilungen + deren Eigenschaften
· Pro: schneller Überblick über Verteilung, Beschreibung komplexer Verteilungen mit mehreren Häufigkeiten möglich
· Con: Wahl Klassengrenzen/ Anzahl Klassen wichtig, zeigt keine Zusammenhänge, bei mehreren Klassen muss für jede Klasse ein Histogramm erstellt werden
Was ist das Boxplot? Was sind die Ziele die es verfolgt und Vor und - Nachteile?
· Darstellung empirische Verteilung eines Merkmals: Median, 1. Und 3. Quartil, Fühler (min/max oder 1,5 fachen Quartilsabstand)
· Für univariate, quantitative Merkmale
· Ziel: entdecken, erkennen von Zusammenhängen
· Pro: Überblick über Verteilung, erkennen von Ausreißern, erinfacher Vergleich von Streuungen
· Con: Histogramm intuitiver für Vergleich einzelner Streuung, keine Zusammenhänge zwischen Merkmalen, zeigt Form der Verteilung nicht
Zusammenfassung Diagramme
Last changed9 months ago