Wie kann man an die Analyse von Daten herangehen?
hypothesengetrieben: man versucht eine Annahme mit den Daten zu validieren
explorativ /Muster aus Daten durch ergebnisoffene Analyse erkennen
Nenne ein Bsp. für diskrete / kategorische Größen.
Geschlecht, Hat Haustier / Hat kein Haustier
Nenne ein Bsp. für eine kontinuierliche Größe.
Temperatur, Zeit, Preise, Aktienkurs
Wie nennt man die Eingangsgrößen, die in ein Modell einfließen?
Klassifikatoren
Nennen Sie einige Aktivitätne, die im Bereich der Data Curation getan werden könnten.
Imputation fehlender Werte
Korrektur von Zeitstempel
Normalisierung
Ausreißer eliminieren
Maßeinheiten umrechnen
Wie funktioniert die Normalisierung von Datenpunkten?
Transformation der Merkmale, sodass sie alle in der selben Größenordnung liegen im Interval 0 bis 1
—> (Abstand zum kleinsten Wert)/ (Abstand zw. kleinstem und größten Wert)
Wie kann man mit fehlenden Datenpunkten umgehen?
Imputation (schätzen von plausiblen ersatzwerten, zB durch Mittelwert/Median)
Interpolation (bei Zeitreihen —> Wert aus Nachbarn ableiten)
Löschen des ganzen Datenpunkts
Was ist der Unterschied zwischen Rauschen und Ausreißern?
Rauschen = zufällige Einflüsse (zB Messungenuaigkeiten)
Ausreißer = konkrete Datenpunkte, bei denen ein nicht in den Trend passendes Verhalten erkennbar ist
Wie können Zeitreihendaten geglättet werden?
Gleitender Mittelwert
Gleitender Median (gewichtet Ausreißer nicht so stark)
Exponential Moving Average (gewichtet ältere Werte weniger stark)
Was muss bzgl. der Fensterbreite beim Glätten von Daten mit dem Moving Average beachtet werden?
Bei Glättung verzögert sich das Signal immer um ca. eine halbe Fensterbreite
je größer die Fensterbreite, dest glatter die Daten, aber desto größer auch die Verzögerung
je kleiner die Fensterbreite, desto geringer die Glättung, aber auch die Verzögerung
Wie ist ein Zeitreihenplot aufgebaut?
x-Achse: Zeit
y-Achse: eine kontinuierliche Größe, deren Verlauf man ablesen kann
Wie ist ein Histogramm aufgebaut?
y-Achse: Häufigkeiten der Vorkommnisse
x-achse: Kategoriales / oder gebinntes Merkmal
Wie sieht ein Box Plot aus und wofür braucht man ihn?
x-Achse: Ausprägungen eines kategorialen / gebinnten Merkmals
y-Achse: Kontinuierliches Merkmal
Zweck: Visualisierung wesentlicher Eigenschaften der Verteilung (Lage, Streuung, Schiefe)
Wie sieht eine Heatmap aus und wofür braucht man sie?
x-achse: kategoriales oder gebinntes Merkmal
y-achse: kategoriales oder gebinntes Merkmal
Zweck: Visualisierung von Zusammenhängen zw. 2 Merkmalen
Wie sieht eine Scatter Plot Matrix aus und wofür braucht man sie?
Eine Scatter Plot Matrix ist eine Anordnung von Streudiagrammen, in der die Beziehungen zwischen allen Paaren von Variablen eines Datensatzes visualisiert werden. Jede Achse in der Matrix repräsentiert eine Variable, und die Zellen zeigen die Streuung zwischen den Variablen.
Wofür?
Um Zusammenhänge, Korrelationen oder Muster zwischen Variablen zu erkennen.
Praktisch für die erste Datenanalyse und das Erkennen potenzieller Features für Machine-Learning-Modelle.
Was sagt ein Korrelationskoeffizient = +/- 1 aus?
Dass die Größen x und y stark positiv/negativ korreliert sind
Was bedeutet ein Korrelationskoeefizient aus, der nahe 0 ist?
Dass die Größen x und y keinen linearen Zusammenhang haben
(schließt aber nicht aus, dass es evtl. einen nicht-linearen Zusammenhang geben könnte)
Wie wird das Fehlermaß bei der Regression bestimmt?
Least-Squares-Methode:
Summe der quadrtaischen Abweichungen (bestraft höhere Abweichungen stärker)
Wie unterscheiden sich die lineare und die nicht-lineare regression?
Lineare Regression beschreibt eine gerade Linie,
nicht-lineare Regression passt sich gekrümmten oder komplexen Mustern an.
Erklären Sie, was Underfitting und Overfitting in einem Machine-Learning-Modell bedeuten. Welche Auswirkungen haben diese auf die Prognosefähigkeit eines Modells?
Underfitting: Modell ist zu einfach und kann nicht einmal die Trainingsdaten gut abbilden (hoher Bias).
Overfitting: Modell ist zu komplex und passt sich an Rauschen oder irrelevante Details in den Trainingsdaten an (hohe Varianz).
Beschreiben Sie, warum die Fehlerkurve bei Trainingsdaten mit zunehmender Modellkomplexität weiter sinkt, während die Kurve für Testdaten nach einem Minimum wieder steigt.
Mit zunehmender Modellkomplexität passt sich das Modell immer besser an die Trainingsdaten an, wodurch der Trainingsfehler weiter abnimmt.
Allerdings beginnt das Modell dabei, spezifische Merkmale oder das Rauschen der Trainingsdaten zu lernen, was zu einer schlechten Generalisierung auf neue Testdaten führt. Dies führt zu einem steigenden Testfehler.
Sie trainieren ein Modell, das auf den Trainingsdaten einen R2-Wert von 0,99 und auf den Testdaten nur 0,4 erreicht. Interpretieren Sie dieses Ergebnis und schlagen Sie Maßnahmen vor, um das Problem zu lösen.
Interpretation: Das Modell overfitted die Trainingsdaten, da es diese nahezu perfekt vorhersagt, auf neuen Daten jedoch schlecht generalisiert.
Maßnahmen:
Cross-Validation einsetzen, um die Generalisierungsfähigkeit zu prüfen.
Modellkomplexität reduzieren, z. B. durch Anpassung von Hyperparametern oder Vereinfachung des Modells.
Mehr Trainingsdaten sammeln, um die Datenbasis zu vergrößern.
Sie entwickeln ein Vorhersagemodell für die Restlebensdauer (Remaining Useful Life, RUL) von Maschinen.
Welche Risiken entstehen durch Overfitting in diesem Anwendungsfall?
Welche Maßnahmen können getroffen werden, um diese zu minimieren?
Risiken: Eine falsche Vorhersage der Restlebensdauer könnte zu unnötig früh durchgeführten Wartungen (höhere Kosten) oder zu späten Wartungen (Maschinenausfall) führen.
Reduktion der Modellkomplexität durch Regularisierung.
Verwendung von Cross-Validation, um die Generalisierungsfähigkeit sicherzustellen.
Datensätze erweitern, um eine bessere Abdeckung verschiedener Szenarien zu gewährleisten.
Ein Ingenieur behauptet, dass ein R2-Wert von 1 immer das Ziel sein sollte.
Erklären Sie, warum diese Aussage im Kontext von Machine Learning problematisch sein kann, insbesondere im Hinblick auf Overfitting.
Ein R2-Wert von 1 bedeutet, dass das Modell die Trainingsdaten perfekt vorhersagt.
In der Praxis deutet dies oft auf Overfitting hin, da das Modell sich zu stark an die Trainingsdaten angepasst hat und auf neuen, unbekannten Daten schlecht performen könnte.
Das Ziel sollte ein guter Kompromiss zwischen Trainings- und Testdaten-Performance sein (Generalisierung).
Überlegen Sie, wie sich Overfitting und Underfitting auf die Gewichtung der Kostenmatrix auswirken könnten.
In welchem Szenario wäre es kritischer, Overfitting zu vermeiden, und warum?
Overfitting: Führt dazu, dass das Modell zu stark auf die Trainingsdaten optimiert wird. Dies könnte zu einer falschen Gewichtung in der Kostenmatrix führen, z. B. durch eine hohe Anzahl an False Positives in sicherheitskritischen Anwendungen (z. B. Fehlalarme in der Wartung).
Underfitting: Erfasst die zugrunde liegenden Muster nicht, was zu einer hohen Fehlerrate führt.
—> Kritisch: Overfitting ist in sicherheitskritischen Szenarien problematischer, da Fehlalarme oder verpasste Warnungen gravierende Auswirkungen haben könnten.
Nenne die versch. Schritte bei Machine Learning Projekten.
Labelling / Data Curation
ggf. Merkmalsraum reduzieren
Aufteilen der Daten in Trainings-, Validierungs- und Testdaten
Auswahl eines Modells und der Hyperparameter
Training des Modells mit Trainingsdaten
Validierung des Modells mit Validierungsdaten
Finaler Test des Modells gegen Testdaten
Wie wird ein Datensatz gewöhnlich für die Modellentwicklung aufgeteilt?
70% Trainingsdaten
20% Validierungsdaten
10% Testdaten
Welche Möglichkeiten gibt es, Trainings- und Testdaten voneinander unabhängig zu verwenden?
Holdout-Validierung (zufällig zB 80/20 aufteilen)
k-Fold Cross Validation (in k Untermengen einteilen und daanch in k Iterationen jede Untermenge einmal als Testdaten und k-1 mal als Trainingsdaten verwenden)
Würde man sich bei einem gr0ßen Datensatz eher für Cross- oder Holdout-Validation entscheiden?
Eher für Holdout-Validation
—> geringe Wahrscheinlichkeit von Class Imbalance
Würde man sich bei einem kleinen Datensatz eher für Cross- oder Holdout-Validation entscheiden?
Eher für Cross-Validation
—> höhere Wahrscheinlichkeit von Class Imbalance
Was kann man gegen Class Imbalance tun?
SMOTE = Synthetic Minority Oversampling Technique
Was ist eine Konfusionsmatrix, und welche Werte enthält sie?
Eine Konfusionsmatrix ist eine Tabelle, die die Leistung eines Klassifikationsmodells visualisiert, indem sie die tatsächlichen und vorhergesagten Werte gegenüberstellt.
Sie enthält vier Felder:
True Positives (TP): Korrekt vorhergesagte positive Fälle.
True Negatives (TN): Korrekt vorhergesagte negative Fälle.
False Positives (FP): Fälschlicherweise als positiv vorhergesagte Fälle
False Negatives (FN): Fälschlicherweise als negativ vorhergesagte Fälle
In welchem Szenario ist Recall wichtiger als Precision, und warum?
Recall ist wichtiger in Szenarien, in denen es entscheidend ist, möglichst alle relevanten positiven Fälle zu erkennen. Beispiele:
Medizinische Diagnosen: Es ist wichtiger, alle Patienten mit einer Krankheit zu identifizieren, auch wenn einige fälschlicherweise positiv diagnostiziert werden.
Spam-Erkennung: Alle Spam-Mails sollten markiert werden, auch wenn einige reguläre Mails fälschlicherweise als Spam erkannt werden.
Wie kann ein Modell eine hohe Accuracy haben, aber trotzdem unbrauchbar sein?
In unausgeglichenen Datensätzen kann Accuracy irreführend sein.
Beispiel: Wenn 95 % der Daten negativ sind, kann ein Modell, das immer negativ vorhersagt, 95 % Accuracy erreichen, aber keine echten positiven Fälle erkennen.
In solchen Fällen sind Precision und Recall besser geeignet, die Modellleistung zu bewerten.
Wie könnten Precision und Recall in der Praxis interpretiert werden, wenn man ein autonomes Fahrzeug trainiert?
Precision: Bedeutet, wie oft das Fahrzeug korrekt erkannt hat, dass ein Objekt ein Hindernis ist (ohne Fehlalarme).
Recall: Bedeutet, wie viele Hindernisse das Fahrzeug tatsächlich erkannt hat.
Eine hohe Precision ist wichtig, um unnötige Bremsungen zu vermeiden, aber Recall ist entscheidend, um alle Hindernisse sicher zu erkennen.
Nenne 4 typische Herausforderungen bei der Klassifizierung.
Komplexe, nicht-lineare Klassengrenzen
Curse of Dimensionality
Class Imbalance
Unklarheit bzgl prädiktiver Kraft des Modells
Beschreibe den Curse of Dimensionality.
Der Curse of Dimensionality beschreibt, dass mit steigender Anzahl an Dimensionen (Features) die Daten in einem hochdimensionalen Raum immer dünner verteilt sind.
Modelle brauchen mehr Daten, um Muster zu erkennen.
Ähnlichkeiten (z. B. bei Distanzmetriken) verlieren an Aussagekraft.
Overfitting wird wahrscheinlicher, da irrelevante Dimensionen Rauschen hinzufügen.
Das macht die Modellbildung ineffizient und komplex.
Wie kann die Dimensionalität des Merkmalsraums durchgeführt werden?
Manuelle Feature Selection (durch Datenkenntnis weniger relevante Dimensionen entfernen)
Principal Component Analysis (PCA): Transformation des Merkmalsraums, sodass nur die aussagekräftigsten Hauptkomponenten mit möglichst viel Varianz beibehalten werden
Warum wird PCA häufig vor dem Training von Machine-Learning-Modellen eingesetzt?
PCA wird eingesetzt, um die Daten zu vereinfachen, Rechenzeit zu sparen, irrelevante oder korrelierte Features zu entfernen und Overfitting zu reduzieren.
Wie entscheidet PCA, welche Hauptkomponenten beibehalten werden?
PCA behält die Hauptkomponenten mit der höchsten Varianz (größten Eigenwerten) bei und verwirft die Komponenten mit geringer Varianz, die weniger zur Dateninformation beitragen.
Warum sind die Hauptkomponenten bei der PCA orthogonal zueinander?
Die Orthogonalität stellt sicher, dass die Hauptkomponenten unkorreliert sind und keine redundante Information enthalten.
Welche Voraussetzung muss ein Datensatz erfüllen, bevor PCA angewendet werden kann?
Die Daten sollten standardisiert oder normalisiert werden, da PCA sensitiv gegenüber Skalierungen der Features ist.
Wann ist PCA ungeeignet?
PCA ist ungeeignet, wenn die ursprünglichen Features eine interpretierbare Bedeutung haben sollen, da die Hauptkomponenten Kombinationen der ursprünglichen Features sind und deren Interpretation erschweren können.
Wie wird das Ergebnis der PCA-Reduktion gemessen?
Der Erfolg wird durch den Anteil der erklärten Varianz (explained variance ratio) gemessen, der zeigt, wie viel Information durch die Hauptkomponenten erhalten bleibt.
Wie stehen Trainings- und Validierungsaufwand bei der Klassifikation mit k-Nearest Neighbor zueinander im Verhältnis?
Bei k-Nearest Neighbor ist der Trainingsaufwand gering, da das Modell keine explizite Lernphase benötigt.
Der Validierungsaufwand ist hoch, da bei jeder Vorhersage die Abstände zu allen Trainingsdaten berechnet werden müssen.
Welche Hyperparameter gibt es bei K-Nearest Neigbors?
v.a. k, die Anzahl der benachbarten Datenpunkte, die in den Mehrheitsentscheid miteinbezogen werden
außerdem noch Abstandsmetrik (zB euklidisch)
Welche eigenschaften hat ein optimierter decision tree?
Symmetrie
Geringe Tiefe
Ausbalancierte Split-Mengen
Überflüssige Zweige entfernt (Pruning)
welche hyperparameter gibt es beim Decision Tree?
Baumtiefe
Minestanzahl der pro Verzweigung übrigbleibender Punkte
Anzahl Merkmale pro Verzweigung
Warum ist ein sehr tiefer Entscheidungsbaum anfällig für Overfitting, und wie kann dies verhindert werden?
Ein tiefer Baum passt sich stark an die Trainingsdaten an, einschließlich Rauschen und Ausreißern. Dies kann durch Pruning (Beschneiden), Begrenzung der maximalen Tiefe, Mindestanzahl an Datenpunkten pro Knoten oder Cross-Validation verhindert werden.
Warum sind Random Forests weniger anfällig für Overfitting als einzelne Entscheidungsbäume?
Random Forests nutzen die Aggregation mehrerer Bäume und zufällige Subsets von Daten und Features. Dies reduziert die Abhängigkeit von einzelnen Bäumen und glättet die Vorhersagen.
In welchem Szenario wäre ein einzelner Entscheidungsbaum einem Random Forest vorzuziehen?
Wenn Interpretierbarkeit und Geschwindigkeit wichtiger sind als die höchste Genauigkeit, da ein einzelner Baum leichter zu visualisieren und schneller zu berechnen ist.
welche hyperparameter gibt es beim Random Forest?
Anzahl Bäume
Art der Entscheidungsfindung (Mehrheitsentscheid etc.)
Größe der Untermengen, die auf die Bäume verteilt werden
Wie unterscheidet sich die Anwendung einer Support Vector Machine mit einer linearen und einer gekrümmten Fläche?
Lineare Trennfläche:
Wird verwendet, wenn die Daten in ihrem ursprünglichen Merkmalsraum linear trennbar sind (d. h. mit einer Geraden/Ebene).
Das Ziel ist es, eine Hyperplane (lineare Grenze) zu finden, die die beiden Klassen maximal trennt.
Gekrümmte Trennfläche:
Wird verwendet, wenn die Daten nicht-linear trennbar sind (d. h. die Klassen überlappen oder komplexere Muster aufweisen).
Mit einem Kernel-Trick (z. B. RBF-, Polynomial- oder Sigmoid-Kernel) wird der ursprüngliche Merkmalsraum in einen höherdimensionalen Raum transformiert, in dem eine lineare Trennung möglich ist. — jeweils immer nur mit 2 Klassen durchführbar
Wie ist die Erklärbeit und die Robustheit der Ergebnisse einer SVM?
Erklärbarkeit: gering
Robustheit: hoch, auch mit geringen Datenmengen
Was sind Hyperparameter bei neuronalen Netzen?
Lernrate
Anzahl Neuronen pro Schicht
Anzahl Hidden Layers
Aktivierungsfunktion
Was macht den Backpropagation Prozess bei Neuronalen Netzen aus?
Anpassung der Gewichte der Neuronen in den Hidden Layers, nachdem das Output mit den gelabellten Lerndaten abgeglichen wurde —> Mechanismus, mit dem sich das Netz selbst optimiert
Wie stehen Trainings- und Validierungsaufwand bei der Klassifikation mit neuronalen Netzen zueinander im Verhältnis?
Training dauert lange, da die Gewichte nacheinander optimiert werden müssen
Validierung geht sehr schnell
Was versteht man unter einem FeedForward Netz?
Feedforward-Netz (FFNN): Informationen fließen nur in eine Richtung, von der Eingabeschicht zur Ausgabeschicht, ohne Rückkopplung.
Erkläre den Backpropagation-Algorithmus und seine Bedeutung im Training von neuronalen Netzen.
Backpropagation ist ein Lernalgorithmus, der zur Fehlerberechnung und Gewichtsaktualisierung im Training von neuronalen Netzen verwendet wird. Der Algorithmus funktioniert in zwei Phasen:
Vorwärtsdurchlauf: Eingabedaten werden durch das Netz propagiert, um die Ausgaben zu berechnen.
Rückwärtsdurchlauf (Backpropagation): Der Fehler wird berechnet, indem die Differenz zwischen der tatsächlichen und der erwarteten Ausgabe ermittelt wird. Dieser Fehler wird durch das Netz zurückpropagiert, um die Gewichte mithilfe der Gradientenabstiegsmethode anzupassen.
Was unterscheidet Shallow Learning und Deep Learning?
Shallow: 3-5 Layers
Deep Learning: alles über 10 Layers
Erkläre den Unterschied zwischen linearem und nichtlinearem Klassifikator. Nenne für beide Kategorien Beispiele.
Ein linearer Klassifikator (wie ein Logistic Regression oder Support Vector Machine (SVM) mit linearem Kernel) trennt Daten mit einer geraden Linie oder einer hyperbenen Fläche.
Ein nichtlinearer Klassifikator (z.B. SVM mit RBF-Kernel, Decision Trees oder Random Forests) kann komplexere Trennungen durchführen und Daten in höherdimensionalen Räumen trennen. Ein nichtlinearer Klassifikator ist sinnvoll, wenn die Daten nicht durch eine einfache lineare Grenze separiert werden können.
Was ist der Unterschied zwischen Regression und Klassifikation in einem überwachten Lernkontext?
Regression: Ziel ist die Vorhersage eines kontinuierlichen Werts. Beispiel: Lineare Regression zur Vorhersage des Hauspreises.
Klassifikation: Ziel ist die Zuordnung von Daten zu einer diskreten Klasse. Beispiel: Logistische Regression oder KNN zur Vorhersage, ob eine E-Mail Spam ist oder nicht.
Mit welcher Kenngröße kann man die Ergebnisse eines Regressionsmodells interpretieren?
Der R²-Wert (Bestimmtheitsmaß) misst, wie gut das Modell die Varianz in den Zielvariablen erklärt.
Ein hoher R²-Wert (nahe 1) bedeutet, dass das Modell einen Großteil der Varianz in den Daten erklärt.
Ein niedriger R²-Wert (nahe 0) bedeutet, dass das Modell wenig zur Erklärung der Zielvariablen beiträgt und daher schlecht in der Vorhersage ist.
Allerdings kann ein hoher R²-Wert auch auf Overfitting hinweisen, besonders bei komplexen Modellen.
Last changed13 days ago