Klausur WI 20er

Buffl

Business Analytics

by Berkin B.

Was ist Eager Learning?

Hauptanteil der Arbeit wird während der Trainingsphase absolviert (z.B Neuronales Netz)

Welche Normalisierungs-Techniken gibt es?

Min-Max Normalisierung
z-score Normalisierung

Was ist der Nachteil der Min-Max Normalisierung?

Die Datenwerte werden in Richtung des Mittelwerts gebracht

Wofür ist die z-score Normalisierung besser?

Wenn man sicherstellen will, dass Ausreißer stärker gewichtet werden als andere Werte.

Was sagt der Cohen´s Kappa aus?

Wie viel besser Ihr Klassifikator im Vergleich zu einem Klassifikator ist, der zufällig die einzelnen Klassen rät

Was ist Lazy Learning?

Hauptanteil der Arbeit wird während der Anfragephase absolviert (z.B k-NN)

Was versteht man unter “überwachtes Lernen”?

Lernvorgang erfolgt mit Daten, bei denen die Werte der abhängigen Variablen bekannt sind (labeled data)
Lernt anhand der Beispiele aus dem Trainingssatz, den richtigen Wert y für einen Input Vektor x zu erzeugen.

Welche Verwendung findet man für Supervised Learning?

Verwendung für Klassifikation und Regression

Was ist das Ziel vom Supervised Learning

Ziel: Anwendung des trainierten Modells auf unbekannte Daten

Nenne zwei Beispiele für das Supervised Learning.

k-NN
einfache lineare Regression

Was versteht man unter “Unsupervised Learning”?

Lernvorgang erfolgt mit daten, denen die Werte der abhängigen Variablen nicht bekannt sind (unlabeled data)
Das Modell lernt, die Beispiele des Trainingssatzes auf Basis von Ähnlichkeiten oder Wahrscheinlichkeiten zu gruppieren.

Nenne Beispiele für das Unsupervised Learning.

Association Rules
Methoden zur Dimensionsreduktion
Techniken zum Clustering (k-means)

Was versteht man unter “Semi-Supervised Learning”?

Beim Semi-Supervised Learning kennzeichnet das Modell, die Daten im Trainingssatz mit einem modifizierten unsupervised learning Verfahren

Was ist ein Regressor?

Algorithmus zur Durchführung einer Regression bspw. Decision Tree Regressor

Ab wann spricht man von einer starken Clusterstruktur?

Sc > 0,7

(Silhouetten-Koeffizient)

Beschreiben Sie a(x) und b(x) im Zusammenhang des Silhouetten-Koeffizienten.

a(x): Abstand des Objekts x zu seinem Cluster Repräsentanten
b(x): Abstand des Objekts x zum Vertreter des “zweitbesten” Clusters

Was sagt die Likelihood- Funktion aus?

LF sagt aus, wie wahrscheinlich es ist, dass der Wert einer abhängigen Variablen durch die unabhängigen Variablen verausgesagt werden kann.

Bennene die Nachteile der Konfusionsmatrix.

Berücksichtigt nur die Genauigkeit im Allgemeinen und nicht für verschiedene Klassen
=> Daher nicht informativ, wenn die Klassenverteilung unausgewogen ist.

Was ist Cohen´s Kappa?

gutes statistisches Maß
Kann Probleme mit mehreren Klassen & unausgewogenen Klassen bewältigen

Beschreiben Sie die Variablen p0 und pe.

p0: beobachtete Übereinstimmung

pe: für die erwartete Übereinstimmung

Was sagen die Werte von Kappa (k) aus?

K= 1 => Perfektes Modell
K=0 => Modell Leistung gleich einem Zufalls Classifier

Was versteht man unter Underfitting?

Ein Modell, das weder die Trainingsdaten modelliert noch auf neuen Daten verallgemeinern kann

Was versteht man unter Overfitting?

Ein Modell, das die Trainingsdaten zu exakt erfasst, inklusive Details und Rauschen

Ab wann spricht man von einer sinnvollen Clusterstruktur?

sc > 0,5

Was versteht man unter logistische Regression?

Prüfung, ob ein Zusammenhang zwischen einer abhängigen binären Variablen und einer oder mehreren unabhängigen Variablen besteht

Was sagt Item Set Support aus?

Wie oft die n Artikel zusammen gekauft werden.

Wie lautet die Formel für Item Set Support?

s= freq(A, B, …, Z) / N

Bspw:

P(Milk, Diaper, Beer) / Anz. aller Transaktionen

Was sagt die Rule Confidence aus?

Wie oft werden {A, B, …, Z} zusammen mit Y gekauft.

Wie oft werden sie in allen Warenkörben, die Milch und Diapers enthalten, auch Bier finden?

Wie lautet die Formel für die Confidence Rule?

c = freq(A, B, C, Z) / freq(A, B, Z)

Bspw. c= P(Milk, Diaper, Beer) / P(Milk, Diaper)

Was sagt der Rule Lift aus?

Wie oft {A, B, C} und X zusammen auftreten, verglichen mit dem Zufall.

Was ist ein Classifier?

Classifier- Algorithmen dienen zur Durchführung einer Klassifikation bspw. Decision Tree Classifier

Was versteht man unter Missing Value Imputation?

Prozess der Ersetzung fehlender Daten durch Ersatzwerte

Nennen Sie die verschiedenen Arten von Missing Values?

Missing Completely At Random (MCAR)
Missing At Random (MAR)
=> Geschlecht X mag es weniger wahrscheinlich, dass es sein Gewicht Y angibt
Not Missing At Random (NMAR)
=> Schwere Personen geben ihr Gewicht seltener an.

Wie geht man mit fehlenden Werten um?

Datensatz ignorieren oder entfernen
Ergänzen mit Hilfe: Median, häufigster Wert, nächster Wert o.Ä

Welche Techniken bzw. Methoden gibt es bei der Dimensionsreduktion?

Untersuchung mittels Messgrößen
Transformationen mittels PCA, LDA oder t-SNE
Mit Hilfe von Machine Learning

Erläutern Sie die Abkürzung PCA.

Principal Components Analysis
Reduzierung der Anzahl der unabhängigen Variablen bie geringem Informationsverlust
unsupervised

Wann ist PCA nutzlich?

Bei einer großen Anzahl von Variablen und geringen Beobachtungen
Multikollinearität
Anwendung nur bei numerischen Variablen

Erläutern Sie die Abkürzung LDA.

Linear Discriminant Analysis

Was haben die beiden Methoden Feature Selection und Dimensionality reduction gemeinsam?

Reduzieren die Anzahl der Merkmale in einem Datensatz

Benennen Sie die Bedeutung der Spalten, Reihen und der Diagonalen einer Konfusionsmatrix.

Spalten: Vorhergesagte Werte
Reihen: Korrekte Werte
Hauptdiagonale (\): Korrekt Klassifiziert
außerhalb der Hauptdiagonale (/): falsch klassifiziert

Was ist ein FFNN?

Informationen strömen nur in einer Richtung
Keine Schleifen oder Zyklen
Jede Schicht beinhaltet Neuronen und Gewichte

Was verstehen Sie unter Backward Propagation im Zusammenhang der FFNN?

Netzwerk wird rückwärts abgegangen
beobachtet welche Gewichte für die Abweichung verantwortlich sind
=> Werden mit der Kettenregel modifiziert
Ziel: Abweichung minimieren

Join Course

Preview

Author

Berkin B.

Information

Last changed
3 months ago

Report course