Business Analytics

Buffl

Business Analytics

by Berkin B.

Benennen Sie die “4 V”, die Big Data charakterisieren und beschreibe diese.

4V: Volume, Variety, Velocity & Veracity

Volume: Big Data haben immer ein großes Volumen => so groß, dass man diese kaum bewältigen kann

Variety: Vielfalt der Quellen oder Eingangsdaten der Datenbanken

Velocity: Wie schnell die Daten eintreffen, analysiert und genutzt werden.

Veracity: Die Wahrhaftigkeit der Daten.

Erläutern Sie die Fehlerart: Trainingsfehler.

Trainingsfehler:

Abweichung der durch das Modell auf den Trainingsdaten gelieferten Outputs zu den tatsächlichen Outputs der Trainingsdaten.
Maß für das Verhalten des Modells bei den Trainingsdaten.

Erläutern Sie die Fehlerart: Test- oder Generalisierungsfehler.

Test- oder Generalisierungsfehler:

Abweichung der durch das Modell auf den Testdaten gelieferten Outputs zu den tatsächlichen Outputs der Testdaten.
Maß für das Verhalten des Modells bei neuen Daten.

Erläutern Sie die Fehlerart: Modellvarianz.

Varianz eines Modells:

Ein Maß, wie stark sich ein Modell änder, wenn es durch eine andere Datenteilmenge trainiert wird.
hohe Varianz = hohe Empfindlichkeit bei Änderung der Trainingsdaten

Was zeigt die ROC-Kurve?

Die ROC-Kurve zeigt die False-Positive-Rate und True-Positive-Rate für verschieden Schwellenwerte.

FPR: falsche Ergebnisse, die fälschlicherweise richtig eingestuft werden
TPR: richtige Ergebnisse, die korrekt als richtig eingestuft wurden.

In welchem Wertebereich liegt der Gini- Index?

Wertebereich liegt bei 0-1.

Was bedeutet der untere und obere Grenzwert für die Verteilung der Elemente?

0=> alle Elemente im Index gehöre zur selben Klasse

1=> im Index sind alle Klassen gleichmäßig verteilt

Was misst der Silhouette-Koeffizient?

Der Silhouette-Koeffizient misst die Qualität der Clusterbildung.

Benenne die drei Distanzfunktionen für das Linkage Bases Clustering.

Single Link
Complete Link
Average Link

Beschreibe die drei Distanzfunktionen für das Linkage Based Clustering.

Single Linkage:

Abstand der zwei nächstgelegenen Punkte des jeweiligen Clusters

Complete Linkage:

Abstand der beiden weitesten entfernten Punkte der jeweiligen Cluster

Average Link:

Durchschnittlicher Abstand aller möglichen Punktepaare zwischen Clustern

Für welche Art von Clusterstruktur eignet sich welche Distanzfunktion?

Single Linkage Effekt:

kettenförmige Cluster
Cluster mit starker Streuung
Cluster mit langgezogener Struktur

Complete Linkage Effekt:

Kleine, stark abgegrente Cluster
Gleichgroße, konvexe Cluster

Average Link:

Kompriss zwischen Single- & Complete Linkage Ansatz

Welche Teilmenge eignet sich am besten für die Split- Strategie?

Die mit dem geringsten Gini-Index.

Was für ein Cluster Algorithmus ist DBSCAN?

DBSCAN ist ein dichtebasierter Clustering- Algorithmus. Er definiert fünf Arten von Punkten in einem Datensatz.

Wie sind Core Points bei DBSCAN definiert?

Core Points sind Punkte, die mindestens eine Mindestanzahl an Nachbarn (MinPts) innerhalb eines bestimmten Abstands (E) haben.

Welches sind die wichtigsten Parameter für den DBSCAN Algorithmus?

Mindestanzahl von Nachbarn (MinPts) und bestimmter Abstand (E)

Welches sind die zwei Kenngrößen für die Clusterqualität und aus welcher Betrachtung ergeben sie sich?

TD² Variation innerhalb von Clustern
BC² Variation zwischen den Clustern

Wie wird die Clusterqualität berechnet?

CQ= BC²/ TD²

Beschreiben Sie den Unterschied zwischen Feature Selection und Dimensionality Reduction.

Feature Selection:

Es werden bestimmte Features ausgewählt und ausgeschlossen, ohne diese abzuändern.
oft aggresiverer und rechenintensiverer Prozess

Dimensionality Reduction:

Kann die Merkmale in eine niedrige Dimension transformieren.

Feature Selection zwei Methoden. Welche sind das und wie funktionieren diese ?

Backward Feature Elimination:

entfernt iterativ die unwichtigsten Eingangsmerkmale, bis das wichtigste übrig bleibt

Forward Feature Construction

Modell auf ein Eingangsmerkmal trainieren und das genausten Merkmal behalten

Skizzieren eines Decision Tree Workflows

Skizziere den Aufbau eines Perceptrons.

Was versteht man unter Batch Size und Epochs?

Batch Size:

Anzahl der Proben in jeder Iteration des Trainings

Epochs:

Anzahl der Zyklen, um die gesamte Trainingsmenge auszuführen
Die Trainingsmenge wird in jeder Epoche neu gemischt
=> verschiedene Batches pro Epoch

Skizzieren Sie eine Confusion Matrix. Wie berechnet man die dazugehörige Genauigkeit?

Accuracy: true predictions (yes and yes + no and no) : Anz. aller Werte

Skizzieren Sie eine typischen ROC Kurve.

Welche Lernarten gibt es? Nenne drei.

Supervised Learning
Unsupervised Learning
Semi-supervised Learning

Was versteht man unter “überwachtes Lernen”?

Lernvorgang erfolgt mit Daten, bei denen die Werte der abhängigen Variablen bekannt sind (labeled data)
Lernt anhand der Beispiele aus dem Trainingssatz, den richtigen Wert y für einen Input Vektor x zu erzeugen.

Welche Verwendung findet man für Supervised Learning?

Verwendung für Klassifikation und Regression

Was ist das Ziel vom Supervised Learning?

Ziel: Anwendung des trainierten Modells auf unbekannte Daten

Nenne zwei Beispiele für das Supervised Learning.

k-NN
einfache lineare Regression

Was versteht man unter “Unsupervised Learning”?

Lernvorgang erfolgt mit daten, denen die Werte der abhängigen Variablen nicht bekannt sind (unlabeled data)
Das Modell lernt, die Beispiele des Trainingssatzes auf Basis von Ähnlichkeiten oder Wahrscheinlichkeiten zu gruppieren.

Nenne Beispiele für das Unsupervised Learning.

Association Rules
Methoden zur Dimensionsreduktion
Techniken zum Clustering (k-means)

Was versteht man unter “Semi-Supervised Learning”?

Beim Semi-Supervised Learning kennzeichnet das Modell, die Daten im Trainingssatz mit einem modifizierten unsupervised learning Verfahren

Was versteht man unter Feedforward Neural Networks (FFNN)?

Ein FFNN ist ein Netz aus künstlichen Neuronen mit mehreren Schichten
input layer mit den Attributen (x)
eine oder mehrere hidden layers
ein output layer (y) mit Wahrscheinlichkeiten (0,1) oder einem numerischen Ereignis
Verbindungen: nur von Neuronen zur nächsten Schicht

Welchen Spezialfall gibt es beim FFNN?

Das mehrschichtige Perceptron
=> mit nichtlinearen Aktivierungsfunktionen in allen Schichten

Was ist die Idee des Boostings bzw. der boosted trees?

Beim Boosting wird iterativ eine Folge von Bäumen erzeugt
Jeder Baum konzentriert sich auf falsch klassifizierte Objekte des vorherigen Baumes

Beschreiben Sie die Vorgehensweise des Boostings.

Erstellen eines einzelnen angepassten Baumes

Ziehen einer Stichprobe

Erstellen eines Baumes, der an der Stichprobe angepasst ist

Mehrfache Wiederholung der Schritte 2 und 3

Klassifizieren der Objekte mit gewichteter Mehrheitsentscheidung

Gibt es eine Möglichkeit, auch Overfitting zu behandeln?

Vermeidung von Overfitting: Hinzufügen von Regularierungen durch Bestrafung großer Gewichtung

Was sagt Item Set Support aus?

Wie oft die n-Artikel zusammen gekauft werden.

Was sagt Rule Confidence aus?

Wie oft werden {A, B, F} zusammen mit H gekauft.

Was sagt Rule Lift aus?

Wie oft {A, B, F} und H zusammen auftreten, verglichen mit dem Zufall

Auf welcher Technik basiert das Collaborative Filtering?

Alternating Least Square (ALS)

Wofür wird das Collaborative Filtering genutzt?

CF wird zur Erstellung von Empfehlungen verwendet.

Was ist das Ziel der Binary Logistic Regression?

Die Ermittlung der Regressionskoeffizienten ß

Nenne die zwei Schritte des Collaborative Filterings.

Erstellung einer automatischen Vorhersage (Filterung) über die Interessen eines Nutzers, indem er die Präferenzen vieler anderen Nutzer sammelt
Wenn Person A die gleiche Meinung wie B hat, dann hat dieser wahrscheinlich auch die gleiche Meinung bzgl. eines anderen Themas => wahrscheinlicher als eine zufällige Person

Was ist die Idee des Baggings?

Für jeden Baum/ jedes Modell wird eine Trainingsmenge durch gleichmäßige Stichproben mit Ersetzung aus der Standart-Trainingsmenge erzeugt.

Was versteht man unter Reduced Error Pruning?

Wird ein Baum in einem Nachbearbeitungsschritt beschnitten
Jeder Knoten wird durch die beliebteste Klasse ersetzt
=> nur wenn die Vorhersagegenauigkeit nicht abnimmt

Welche Vorteile hat das Reduced Error Pruning?

Vorteil der Einfachheit und Schnelligkeit.

Was misst der Silhouette-Koeffizient?

Der Silhouette-Koeffizient misst die Qualität der Clusterbildung.

Benenne die drei Distanzfunktionen für das Linkage Bases Clustering.

Single Link
Complete Link
Average Link

Beschreibe die drei Distanzfunktionen für das Linkage Based Clustering.

Single Linkage:

Abstand der zwei nächstgelegenen Punkte des jeweiligen Clusters

Complete Linkage:

Abstand der beiden weitesten entfernten Punkte der jeweiligen Cluster

Average Link:

Durchschnittlicher Abstand aller möglichen Punktepaare zwischen Clustern

Für welche Art von Clusterstruktur eignet sich welche Distanzfunktion?

Single Linkage Effekt:

kettenförmige Cluster
Cluster mit starker Streuung
Cluster mit langgezogener Struktur

Complete Linkage Effekt:

Kleine, stark abgegrente Cluster
Gleichgroße, konvexe Cluster

Average Link:

Kompriss zwischen Single- & Complete Linkage Ansatz

Was sind Modellparameter?

dienen zur Anpassen und Festlegung des Lernvorganges

Erläutern Sie das CRISP-DM Modell.

Join Course

Preview

Author

Berkin B.

Information

Last changed
3 months ago

Report course