Benennen Sie die “4 V”, die Big Data charakterisieren und beschreibe diese.
4V: Volume, Variety, Velocity & Veracity
Volume: Big Data haben immer ein großes Volumen => so groß, dass man diese kaum bewältigen kann
Variety: Vielfalt der Quellen oder Eingangsdaten der Datenbanken
Velocity: Wie schnell die Daten eintreffen, analysiert und genutzt werden.
Veracity: Die Wahrhaftigkeit der Daten.
Erläutern Sie die Fehlerart: Trainingsfehler.
Trainingsfehler:
Abweichung der durch das Modell auf den Trainingsdaten gelieferten Outputs zu den tatsächlichen Outputs der Trainingsdaten.
Maß für das Verhalten des Modells bei den Trainingsdaten.
Erläutern Sie die Fehlerart: Test- oder Generalisierungsfehler.
Test- oder Generalisierungsfehler:
Abweichung der durch das Modell auf den Testdaten gelieferten Outputs zu den tatsächlichen Outputs der Testdaten.
Maß für das Verhalten des Modells bei neuen Daten.
Erläutern Sie die Fehlerart: Modellvarianz.
Varianz eines Modells:
Ein Maß, wie stark sich ein Modell änder, wenn es durch eine andere Datenteilmenge trainiert wird.
hohe Varianz = hohe Empfindlichkeit bei Änderung der Trainingsdaten
Was zeigt die ROC-Kurve?
Die ROC-Kurve zeigt die False-Positive-Rate und True-Positive-Rate für verschieden Schwellenwerte.
FPR: falsche Ergebnisse, die fälschlicherweise richtig eingestuft werden
TPR: richtige Ergebnisse, die korrekt als richtig eingestuft wurden.
In welchem Wertebereich liegt der Gini- Index?
Wertebereich liegt bei 0-1.
Was bedeutet der untere und obere Grenzwert für die Verteilung der Elemente?
0=> alle Elemente im Index gehöre zur selben Klasse
1=> im Index sind alle Klassen gleichmäßig verteilt
Was misst der Silhouette-Koeffizient?
Der Silhouette-Koeffizient misst die Qualität der Clusterbildung.
Benenne die drei Distanzfunktionen für das Linkage Bases Clustering.
Single Link
Complete Link
Average Link
Beschreibe die drei Distanzfunktionen für das Linkage Based Clustering.
Single Linkage:
Abstand der zwei nächstgelegenen Punkte des jeweiligen Clusters
Complete Linkage:
Abstand der beiden weitesten entfernten Punkte der jeweiligen Cluster
Average Link:
Durchschnittlicher Abstand aller möglichen Punktepaare zwischen Clustern
Für welche Art von Clusterstruktur eignet sich welche Distanzfunktion?
Single Linkage Effekt:
kettenförmige Cluster
Cluster mit starker Streuung
Cluster mit langgezogener Struktur
Complete Linkage Effekt:
Kleine, stark abgegrente Cluster
Gleichgroße, konvexe Cluster
Kompriss zwischen Single- & Complete Linkage Ansatz
Welche Teilmenge eignet sich am besten für die Split- Strategie?
Die mit dem geringsten Gini-Index.
Was für ein Cluster Algorithmus ist DBSCAN?
DBSCAN ist ein dichtebasierter Clustering- Algorithmus. Er definiert fünf Arten von Punkten in einem Datensatz.
Wie sind Core Points bei DBSCAN definiert?
Core Points sind Punkte, die mindestens eine Mindestanzahl an Nachbarn (MinPts) innerhalb eines bestimmten Abstands (E) haben.
Welches sind die wichtigsten Parameter für den DBSCAN Algorithmus?
Mindestanzahl von Nachbarn (MinPts) und bestimmter Abstand (E)
Welches sind die zwei Kenngrößen für die Clusterqualität und aus welcher Betrachtung ergeben sie sich?
TD² Variation innerhalb von Clustern
BC² Variation zwischen den Clustern
Wie wird die Clusterqualität berechnet?
CQ= BC²/ TD²
Beschreiben Sie den Unterschied zwischen Feature Selection und Dimensionality Reduction.
Feature Selection:
Es werden bestimmte Features ausgewählt und ausgeschlossen, ohne diese abzuändern.
oft aggresiverer und rechenintensiverer Prozess
Dimensionality Reduction:
Kann die Merkmale in eine niedrige Dimension transformieren.
Feature Selection zwei Methoden. Welche sind das und wie funktionieren diese ?
Backward Feature Elimination:
entfernt iterativ die unwichtigsten Eingangsmerkmale, bis das wichtigste übrig bleibt
Forward Feature Construction
Modell auf ein Eingangsmerkmal trainieren und das genausten Merkmal behalten
Skizzieren eines Decision Tree Workflows
Skizziere den Aufbau eines Perceptrons.
Was versteht man unter Batch Size und Epochs?
Batch Size:
Anzahl der Proben in jeder Iteration des Trainings
Epochs:
Anzahl der Zyklen, um die gesamte Trainingsmenge auszuführen
Die Trainingsmenge wird in jeder Epoche neu gemischt
=> verschiedene Batches pro Epoch
Skizzieren Sie eine Confusion Matrix. Wie berechnet man die dazugehörige Genauigkeit?
Accuracy: true predictions (yes and yes + no and no) : Anz. aller Werte
Skizzieren Sie eine typischen ROC Kurve.
Welche Lernarten gibt es? Nenne drei.
Supervised Learning
Unsupervised Learning
Semi-supervised Learning
Was versteht man unter “überwachtes Lernen”?
Lernvorgang erfolgt mit Daten, bei denen die Werte der abhängigen Variablen bekannt sind (labeled data)
Lernt anhand der Beispiele aus dem Trainingssatz, den richtigen Wert y für einen Input Vektor x zu erzeugen.
Welche Verwendung findet man für Supervised Learning?
Verwendung für Klassifikation und Regression
Was ist das Ziel vom Supervised Learning?
Ziel: Anwendung des trainierten Modells auf unbekannte Daten
Nenne zwei Beispiele für das Supervised Learning.
k-NN
einfache lineare Regression
Was versteht man unter “Unsupervised Learning”?
Lernvorgang erfolgt mit daten, denen die Werte der abhängigen Variablen nicht bekannt sind (unlabeled data)
Das Modell lernt, die Beispiele des Trainingssatzes auf Basis von Ähnlichkeiten oder Wahrscheinlichkeiten zu gruppieren.
Nenne Beispiele für das Unsupervised Learning.
Association Rules
Methoden zur Dimensionsreduktion
Techniken zum Clustering (k-means)
Was versteht man unter “Semi-Supervised Learning”?
Beim Semi-Supervised Learning kennzeichnet das Modell, die Daten im Trainingssatz mit einem modifizierten unsupervised learning Verfahren
Was versteht man unter Feedforward Neural Networks (FFNN)?
Ein FFNN ist ein Netz aus künstlichen Neuronen mit mehreren Schichten
input layer mit den Attributen (x)
eine oder mehrere hidden layers
ein output layer (y) mit Wahrscheinlichkeiten (0,1) oder einem numerischen Ereignis
Verbindungen: nur von Neuronen zur nächsten Schicht
Welchen Spezialfall gibt es beim FFNN?
Das mehrschichtige Perceptron
=> mit nichtlinearen Aktivierungsfunktionen in allen Schichten
Was ist die Idee des Boostings bzw. der boosted trees?
Beim Boosting wird iterativ eine Folge von Bäumen erzeugt
Jeder Baum konzentriert sich auf falsch klassifizierte Objekte des vorherigen Baumes
Beschreiben Sie die Vorgehensweise des Boostings.
Erstellen eines einzelnen angepassten Baumes
Ziehen einer Stichprobe
Erstellen eines Baumes, der an der Stichprobe angepasst ist
Mehrfache Wiederholung der Schritte 2 und 3
Klassifizieren der Objekte mit gewichteter Mehrheitsentscheidung
Gibt es eine Möglichkeit, auch Overfitting zu behandeln?
Vermeidung von Overfitting: Hinzufügen von Regularierungen durch Bestrafung großer Gewichtung
Was sagt Item Set Support aus?
Wie oft die n-Artikel zusammen gekauft werden.
Was sagt Rule Confidence aus?
Wie oft werden {A, B, F} zusammen mit H gekauft.
Was sagt Rule Lift aus?
Wie oft {A, B, F} und H zusammen auftreten, verglichen mit dem Zufall
Auf welcher Technik basiert das Collaborative Filtering?
Alternating Least Square (ALS)
Wofür wird das Collaborative Filtering genutzt?
CF wird zur Erstellung von Empfehlungen verwendet.
Was ist das Ziel der Binary Logistic Regression?
Die Ermittlung der Regressionskoeffizienten ß
Nenne die zwei Schritte des Collaborative Filterings.
Erstellung einer automatischen Vorhersage (Filterung) über die Interessen eines Nutzers, indem er die Präferenzen vieler anderen Nutzer sammelt
Wenn Person A die gleiche Meinung wie B hat, dann hat dieser wahrscheinlich auch die gleiche Meinung bzgl. eines anderen Themas => wahrscheinlicher als eine zufällige Person
Was ist die Idee des Baggings?
Für jeden Baum/ jedes Modell wird eine Trainingsmenge durch gleichmäßige Stichproben mit Ersetzung aus der Standart-Trainingsmenge erzeugt.
Was versteht man unter Reduced Error Pruning?
Wird ein Baum in einem Nachbearbeitungsschritt beschnitten
Jeder Knoten wird durch die beliebteste Klasse ersetzt
=> nur wenn die Vorhersagegenauigkeit nicht abnimmt
Welche Vorteile hat das Reduced Error Pruning?
Vorteil der Einfachheit und Schnelligkeit.
Was sind Modellparameter?
dienen zur Anpassen und Festlegung des Lernvorganges
Erläutern Sie das CRISP-DM Modell.
Last changed3 months ago