Definition Big Data
Big Data unterstützt die wirtschaftlich sinnvolle Gewinnung und Nutzung entscheidungsrelevanter Erkenntnisse aus qualitativ vielfältigen und unterschiedlich strukturierten Informationen, die einem schnellen Wandel unterliegen und in bisher ungekanntem Umfang zu Verfügung stehen.
Big Data spiegelt den technischen Fortschritt der letzten Jahre wider und umfasst dafür entwickelte strategische Ansätze sowie eingesetzte Technologien, IT-Architekturen, Methoden und Verfahren.
Drei V
Volume
Velocity
Variety
Datenmengen wachsen sehr viel schneller als Datenzugriffsraten
Komplettes Durchforsten von einem TB kann mehrer Stunden dauern
Zur effizienten Daren Verarbeitung muss diese parallelisiert werden -> Verarbeitung macht das Big, nicht der Speicherbedarf
Beschreibt die Geschwindigkeit in der Daten verarbeitet werden müssen
Je scheller die Auswertung, desto höher der Wert der Information
Hohe Datenvielfalt, keine feste Struktur
Business Intelligence
BI ist Überbegriff für Anwendungen, Infrastruktur, Werkzeuge und Best Practices, die den Zugriff und die Analyse von Informationen ermöglichen, um Entscheidungsfindung und Performance zu erhöhen
Ziel ähnlich Big Data -> Gewinnung neuer Erkenntnisse aus Daten
BI sind technische Werkzeuge, um das Berichtswesen im Unternehmen zu automatisieren
Businness Intelligence vs. Big Data
Hadoop
Hadoop wird verwendet um große Datenmengen verteilt zu verarbeiten und ist größtenteils in Java geschrieben.
Hadoop nutzt dafür ein verteiltes Dateisystem (Hadoop Distributed File System (HDFS)) und ein Standardverfahren (Map Reduce), um die Daten zu verarbeiten.
Hadoop wird in einem horizontal skalierbaren Cluster betrieben, dem weitere Knoten hinzugefügt werden können.
Machinen Learnig Ziele
Identifikation eines Machine Learning (ML) Problems
Nutzung grundlegender ML Techniken
Kritische Reflexion der Daten und Ereignisse
Machine Learning soll einen Computer zum arbeiten bringen ohne explizit Programmiert zu sein
Was ist ML
Nutzung von Algorithmen zum Lernen aus Daten
Mehr Information -> Mehr Performance
Bisherige Lösungen -> Erfahrung
Was gehört nicht zu ML
Bestimmung der am meisten vorkommenden Farbe
Berechnung Durchschnittsgröße
Ziel: Erstellung von Medellen zur Vorhersage
Übliche ML Probleme
Klassifizierung
Regression
Clusteranalyse
Ziel: Kategorie einer neuen Beobachtung vorhersagen.
Beispiele:
Medizienische Diagnosen
Tiererkennung
Wichtig:
Qualitativer Output
Vordefinierte Klassen
Ziel: Kategorien einer neuen Beobachtung vorhersagen
Prädikatoren -> Refressionsfunktion -> Antwort
Regressionsmodell
Anspassung eier linearen Funlktion
Geschätzte Höhe = β0 + β1· Gewicht
Prädikator: Gewicht
Antwort: Höhe
Koeffizienten: β0, β1 (Schätzer der vorherigen Input-Output Daten)
Anwendungen Regression
Zahlungem -> Kredit Raten
Zeit -> Abbonnements /Newsletter
Abschluss -> Wahrscheinlickeit einen Job zu bekommen
Quantitativer Output
Historische Input-Output Beobachtung
Clustering: Gruppierung von Objekten in Cluster
Ähnlickeit innerhalb der Cluster
Unähnlickeit zwischen den Clustern
Machine Learning Tasks
Supervised Learning
Unsupervised Learning
Kennzeichnen kann sehr mühsam sein, meistens durchgeführt von Menschen
Einige Techniken erfodern keine gekennzeichneten Daten
Clusterverfahren: Finde Gruppen mit ähnlichen Beobachtungen
Erfodert keien gekennzeichneten Beobachtungen
Performance der Modelle
Vergleiche wahre Labels mit vorhergesagten Labels
Vorhersage sollte den wahren Labels ähnlich sein
Unupervised Learning
Keine wahren Labels zum Vergleich vorhanden
Semi - Supervised Learning
Eine Vielzahl nicht gekennzeichneter Beobachtungen.
Einige sind gekennzeichnet
Gruppieren von ähnlichen Beobachtungen mit Hilfe von Clusterverfahren
Nutze Cluster-Informationen und Klassen mit gekennzeichneten Beobachtungen, um ungekennzeichneten Beobachtungen Klassen zuzuordnen
Mehr gekennzeichnete Beobachtungen für supervised learning.
Modellperformance
Ist unser ML Modell gut?
Drei Modelltypen
Klassifikation
Clusterig
Überprüfung Güte
Genauigkeit / Präzesion (Accuracy)
Berechnungsdauer
Interpretierbarkeit
Accuracy
Genauikeit / Präzision und Fehler
Modell liegt richtig oder falsch
Genauigkeit / Präzision steigt, wenn der Fehler sinkt
Grenzen Accuracy
Klassifikation eines sehr seltenen Fehlers, Bsp. Herzfehler
Alle werden als negativ erkannt, bei 99 von 100 korrekt und bei einem falsch
Ergib Accuracy von 99 %, das täuscht, da alle positiven Fälle nicht erkannt wurden
Konfusionsmatrix
Zeilen und Spalten enthalten alle möglichen Label
Jede Zelle enthält die Häufigkeit der Fälle, die auf einem bestimmten Weg klassifiziert wurden.
Regression: RMSE
Root Mean Squared Error (RMSE)
Durchschnittliche Abweichung zwischen beobachteten und den geschätzten Werten
Clustering
Keine Information über die Gruppen
Benötigt wird eine Distanzmatrix zwischen den Punkten
Güte wird mithilfe zweier Elemente gemessen
Ähnlichkeit innerhalb der Cluster (sollte hoch sein)
Ähnlichleit zwischen den Clustern (sollte niedrig sein)
Ähnlichkeit innerhalb der Cluster
Within Sum of Squares (WSS)
Ähnlichkeit innerhalb der Cluster sollte maximal und die Streuung damit minimal sein
Ähnlichkeit zwischen den Clustern
Between Cluster Sum of Squares (BSS)
Ähnlichkeit zwischen den Clustern sollte minimal und die Entfernung maximal sein
Dunn’s Index
Beschreibt das Verhältnis der minimalen Distanz zwischen Beobachtung, die sich nicht im denselben Cluster befinden und der maximalen Streuung innerhalb der Cluster
Desto größer Dunn’s Index, desto besser
ML - Statistiken
Fähigkeit zur Vorhersage vs. Fähigkeit zur Beschreibung / Klassifiezierung
Supervised Learning: Modell muss Vorhersagen
neue Beobachtungen
Klassische Statistik: Anpassung der Daten durch ein Modell sollte so gut wie möglich sein
Erkläre oder Beschreiben von Daten
Vorhersagemodell
Training
Nicht mit den vollständigen Daten
Es werden Trainingsdaten benötigt
Testdaten zur Evalution der Vorhersageperformance
Trainigs- und Testdaten sind disjunkt: Keine Überschneidungen
Modell wird mi neuen Beobachtungen getested -> Generalisierung möglich!
Wann werden Trainig- und Testdaten verwendet?
Nicht für unsupervisedd Learnign geeignet
Daten sind nicht gekennzeichnet
Wie sollten Datensätze getrennt werden?
Welche Beobachtungen werden wo verwendet?
Training Datensatz sollte größer als der Test Datensatz sein
Typisches Verhältnis 1/3
Zufällige Aufteilung wählen
Generell gilt: Mehr Daten = besseres Modell
Nicht zu wenig Testdaten verwenden
Verteilung der Daten
Klassen sollte ähnlich Verteilung aufweisen
Alle Klassen sollten im Datensatz vorhanden sein
Klassifikation & Regression
Daten vor der Aufteilung zufällig mischen
Kreuzvalidierung
Sampling kann die Performance Kennzahlen beeinflussen
Durch Cross-Validation können diese Kennzahlen auf Robustheit geprüft werden
Idee: Mehrer Stichporben mit unterschiedlichen Aufteilungen ziehen
n-fache Kreuzvalidierung
Auswahl von n Testfatensätzen
Jeder Testdatensatz hat die größe 1/n der Gesamtdaten
BIAS und VARIANZ
Hauptziel superviesed learning: Vorhersage
Vorhersagefehler = reduzierbarer + nicht reduzierbarer Fehler
Nicht verkleinerbar: Rauschen - nicht minimieren
Verkleinerbar: Fehler der einen besseren Fit des Models verhindert - minimieren
Fehler kann in BIAS und VARIANZ aufgeteilt werden
BIAS
Fehler der zum Bias führt: z. B. falsche Annahme
Differenz zwischen Vorhersage und Realität
Häufig bei Modellen die durch spezifische Lernalgorithmen trainiert wurden
VARIANZ
Fehler aufgrund der VARIANZ: Fehler basiert auf dem Sampling der Trainingsdaten
Modell mit hoher VARIANZ passt die Trainingsdaten sehr gut an
BIAS VARIANE TRADE - OFF
nierdrieger BIAS - hohe VARIANZ
niedrige VARIANZ- hoher BIAS
Overfitting
Accuracy hängt von der Trainings- und Testdatenaufteilung ab
Hohe VARIANZ hängt stark von der Aufteilung ab
Overfitting = Modell passt die Trainigsdaten sehr viel besser als die Testdaten an
zu spezifisch
Underfitting
Modell zu restriktiv
Hoher BIAS
Underfitting = Modell ist zu allgemein
Aufgaben der Klassifizierung
Automatisches Klassifizieren von Beobachtungen mit verschiedenen Merkmalen
Beobachtung: Vektor von Merkmalen, mit einer Klasse
Klassifizierung von neuen Beobachtungen in Klassen auf Basis vorheriger Merkmale
Binäre Klassifikation: zwei Klassen
Mehrfachklassigikation: merh als zwei Klassen
Beispiel
Datensatz mit Personen
Merkmale: Alter, Gewicht und Einkommen
Klasse:
Binär: froh, nicht froh
Mehrfachklassifikation: froh, glücklich oder nicht froh
Enmtscheidungsbaum
Entscheidungsbaum anlernen I
Anlernen:
Trainingsdaten beutzen
Abfragen (Tests der Merkmale) an jedem Knoten
Entscheidungsbaum anlernen II
Ziel: Pure leafs - Leafs die nur Beobachtungen einer berstimmten Klasse enthalten
Praxis: quasi unmöglich aufgrund von Rauschen
Wenn neue Daten klassifiziert werden:
Man endet im leaf
und ordnet dann die Klasse mit der Mehrheit der Trainingsfälle zu
An jedem Knoten:
Verschiedene Merkmalstests durchführen
Den besten auswählen
Dies führt zu zwei Aufgaben
Es wird eine Liste der Merkmalstests beötigt
Den Test mi der besten Aufteilung wählen
Auswahl bester Merkmalstest
Komplex
Es werden Trennkriterien genutz, um entscheiden zu können, welcher Test genutzt werden sollte
Informationsgewinn = Entropie (Informationsdichte
Informationsgewinn
Informationsgewinn durch Aufteilung beim Merkmalstest
Tests führt zu schön getrennten Klassen -> hoher Informationsgewinn
TEst führt zu gemischten Klassen -> geringer Informationsgewinn
Test mit hohen Informationsgewinn wird ausgewählt
Pruning
Anzahl der Knoten beeinflusst die Möglichkeit eines Overfits
Wird die Größe beschränkt führt dies zu einem höhren BIAS
Führt jedoch zu einer kleinen Wahrscheinlichkeit für einen Overfit
Pruning = Beschränkung des Baumes
Beispiel Entscheidungsbaum anlegen
Baum wird angelernt, indem Trainigsdaten Schritt für Schritt aufgeteilt werden. Ideal wäre es, wenn die Aufteilung immer zu einer 100 % Aufteilung führen würde
Normalerweise beinhaltet jede Aufteilung positive und negative Trainigsbeobachtungen
Im 2. Knoten: 80 % sind negativ, 20 % sind positiv. Die größte Klasse ist negativ, angezeigt durch die 0 über den Prozentwerten
Die 62 % zeigen, wiviel % des ganzen Trainigdatensatzes diesen Knoten passieren
Dementsprechend summieren sich die Prozentwerte jedes Baumlevels zu 100 %
age >= 6.5 zeigt den Merkmalstest durch den dieser Knoten weiter aufgeteilt wird
Instance-based learning
Auch meory-based learning oder lazy learning genannt
Trainigsdaten werden im Hintergrund gespeichert
Kein wirkliches Modell wie z. B. beim Entscheidungsbaum
Vergleiche neue Beobachtungen mit den Trainingsdaten
Vorhersage mit Hilfe des vergleichs zwischen den neuen Daten und den Trainigsdaten
k-nearest neihbor
Populärste Form des instance-based learning
Einfachste Form: 1-nearest neighbor oder nearest neighbor (Single-Linkage-Verfahren)
k ist die Anzahl der Nachbarn
Wenn z. B. k=5:
Benutze die 5 nächsten Beobachtungen (Nachbarn)
Die zugewiesene Klasse ist die, die am häufigsten innerhalb der 5 Nachbarn vornkommt
k-nearest neighbor Beispiel
ROC-Kurve
Receiver Operator Characteristic Curve (ROC-Kurve)
Für binäre Klassifikationsprobleme: Bspw. Entscheidungsbaum und k-NN
Für ROC Kurve wird die Konfusionsmatrix benötigt
Konfusionsmatrix Wiederholung
Entstehung der ROC Kurve
Zunächst werden z. B. Wahrscheinlichkeiten für ein Ergebnis durch ein Klassifikationsmodell geschätzt
Schwelle für die Klassifikation wird durch die Eintscheidungsfunktion bestimmt
Interpretation der ROC Kurve
Wann ist eine ROC-Kurve gut?
Je näher die Kurve links oben verläuft je besser
Gute Klassifizierer haben eine große Fläche unterhalb der Kurve
Die Fläche unterhalb der Kurve ist definiert als Area under the curve (AUC):
AUC über 0,9 kann als gut erachtet werden
Einfachregression
Multiple Regression
Multiple Regression - Anwendungsvoraussetzungen
die lineare Regression unterliegt einer Reihe von Anwendungsvorrausetzungen. Nur wenn diese erfüllt sind, sind die Ergebnisse valide
die lineare Regression ist nicht robust gegenüber Ausreißern. So können Ausreißer die Schätzer für die Refressionskoeffizienten verzerren und damit auch die Ergebnisse für die t-Tests zu diesen Koeffizienten
Die Methoden zur Prüfung der Anwendungsvorraussetzungen werden allgemein als Regressionsdiagnostik bezeichnet. Ein Großteil dieser Mehoden basiert auf der Anlalyse der Residuen und wird deshalb auch Residuenanalyse genannt.
Multiple Regression - Anwendungsvoraussetzungen 1-7
1: Der zusammenhang zwischen der abhängigen un den unabhängigen Variablen muss linear sein. Wichtig: Nicht-Linearität in den Variablen ist möglich
2: Der Erwartungswert der Residuen ist Null
Meist immer gegeben, kleine Abweichungen sind verschmerzbar
3: Die Residuen dürfen nicht untereinander korrelieren (keine Autokorrelation)
Sehr Spezifisch, für Forcasting
4: Die Varianz der Residuen ist konstant und endlich (Homoskedastizität bzw. keine Heteroskedastizität).
Wichtigeres Problem, da Prognosse am Ende schlecht wird.
5: Es darf kein sehr starker linearer Zusammenhang zwischen den einzelnen erklärenden Variablen bestehen (keine bzw. höchstens gerineg Multikollinearität)
Wenn man Variablen nimmt, die im Grunde das gleiche aussagen, wird die Datengüte künstlich aufgepumpt. Sehr schlecht, da aussage stark leidet
6: Die Residuen sind normalverteilt
7: Zwischen den Residuen und der bzw. den unabhängigen Variablen besteht kein Korrelation (Erklärende Variablen dürfen nicht endogen sein)
Oft bei Sozialwissenschaftlichen Modellen.
Endogen-Problematik
Multiple Regression - Anwendungsvorraussetzungen Interpretation der Punkte
Sind die Annahmen 2, 3 und 4 erfüllt, so ist die KQ-Schätzung der Regressionskoeffizienten unverzerrt und erfüllt die BLUE-Eigenschaft (Best Linear Unibased Estimator)
Ist Annahme 5 erfüllt, so sind die t-Tests auf Signifikanz der Regressionskoeffizienten zuverlässig
Die Erfüllung der Annahme 6 wird i. d. R. nicht besonders streng genommen
Multiple Regression - Modellauswahl
Logistische Regression
Lineare Regression: Abhängige Variable y numerisch
Logistische Regression: Abhängige Variable y binär, d. h. kategorial mit zwei Merkmalsausprägungegen yi ∈ 0, 1
Modellierung, ob Studierende das Studium erfolgreich abschließen
Kündigungsprognosen
Modellierung der Kreditausfallwahrscheinlichkeit auf Basis von Bankdaten
etc.
Logistische Regression: Modellierung
Logistische Regression: Interpretation Modellparameter
Interpretation über Logits nur bedingt möglich: Positive Werte für ß erhöhen bei steigendem x die Wahrscheinlichkeit für das Eintreten von Kategorie 1 der AV, negative Werde für ß verringern bei steigendem x die Wahrscheinlichkeit für das Eintreten von Kategorie 1 der AV
Interpretation über Odds-Ratio=Effektkoeffizient:
Odds und Odds-Ratio
Angenommen in einem Kurs sitzen 100 Studierende, 90 arbeiten mit, 10 nicht. Von den 90, die mitarbeiten, bestehen 80 die Klausur, von den 10, die nicht mitarbeiten, 1.
Die Chance (odds) die Klausur zu bestehen, wenn mitgearbeitet wird, liegt bei 80 : 10 = 8
Die Chance zu bestehen, wenn nicht mitgearbeitet wird, liegt bei 1 : 9.
Das Chancenverhältnis (Odds Ration), liegt bei 8 : 1/9 = 72, d. h., die Chance, die Klausur zu bestehen, ist 72 mal höher, wenn mitgearbeitet wird, als wenn nicht mitgearbeitet wird.
Interpretation Modellparameter: Beispiel Kreditausfall
Nichtparametrische Regression
Problem: Erkennbares Muster, aber keine Linearität
Lösungen:
Transformation <- Mühsam
Multiple Lineare Regression <- Anspruchsvoll
Nichtparametrische Regression <- Machbar
Technicken der nichtparametrische Regression:
k-NN
Kernel Regressoin (mit Hilfe von Kernidichteschätzung)
Regressionsbäume
…
Wichtig: Es werden keien Parameterschätzugen benötigt!
Nichtparametrische Regression: k-NN
Gegeben sind Trainigsdaten (Scatterplto) und eien neuen Beobachtung x (vertikale gestrichelte Linie)
Distanzen der Prädiktoren berechnen
Die k nächsten auswählen (hier k=3) und den Mittelwert (horizontale gestrichelte Linie) berechen
Blaues Quadrat ist die Vorhersage für die neue Beobachtung x
Nichtparametrische Regression: Welches k?
k=1: Perfekte Anpassung an die Trainingsdaten, aber schlechte Vorhersage
k= Anzahl der Beobachtungen: Mittelwert, aber ebenfalls schlechte Vorhersage
BIAS - VARIANZ trade off!
Daumenregel: k=20% der Beobachtungen in den Trainingsdaten
Übertragbarkeit der Regression
Zwei Techniken, um die Übertragbarkeit des Modells zu testen:
Einfach Datensatz splitten und vergleichen
K-fache Kreuzvalidierung
Cluster: Gruppe von Objekten
Ähnlich innerhalb der Cluster
Unterschiedlich zwischen den Clustern
Clustering: Objekte in Clustern gruppieren
Keine Label: unsupervised Klassifikation
Viele verschiedene Clustermöglichkeiten
Anwendung Clusteranalyse:
Musteranalyse
Daten visualisieren
Ausreißeranalyse
usw.
Durchführung Clustering
Ähnlichkeitsmessung: d(…, …)
Nummerische Variable -> Euklidische Distanz, City-Block Distanz, etc.
Kategoriale Variablen -> Ähnlichkeitsmaße
Clustering Methoden
Hirachisch agglomerative Verfahren (z. B. Single Linkage, Complete Linkage etc.)
Partionierende Verfahren (z. B. k-means)
WSS und BSS
Clusteranlayse
Bei der Clusteranalyse sind folgende vier Schritte zurückzulegen
Formulierung des Untersuchungsziels und Aufbereitung des Datenamterials
Auswahl eines geeigneten Distanz- bzw. Ähnlichkeitsmaßes
Auswahl eines geeigneten Gruppierungsverfahren und
Interpretation der Ergebnisse
Aufbereitung Datenmaterial: Transformation
Datensatz mit
2 Merkmalen: Gewicht und Höhe
3 Beobachtungen
Distanz zwischen Beobachtung 1 und 3: In Meter 0,13 und in cm 13
Alle Merkmale tranformieren
Z. B. normiere alle Werte zwischen 0 und 1
So ist es möglich die wahre Distanz besser zu messen
Nicht vergessen neue Beobachtungen ebenfalls zu normieren/tranformieren
Distanz- und Ähnlichkeitsmaße
Ziel einer Clusteranalyse ist es, Objekte so zu gruppieren, dass die Elemente eines Clusters einander möglichsts ähnich sind, d. h. in der räulichen Darstellung eng beieinander liegen. Es ist daher zunächst notwendig, zweckmäßige statistische Maße für die Distanz bzw. die Ähnlichkeit der Objekte zu definieren.
Entsprechend
den Anforderungen dere Anwendungssitution,
dem Skalenniveau der zugrundeliegenden Variable und
den Erfoderdenissen des anzuwendenden Gruppierungsverfahren
Distanzmatrix
Basis sind die Originaldaten oder standartisieren Daten
Distanzmatrix für metrische Daten I
Die bisherigen Distanzmaße sind Spezialfälle der sogenannten Minkowski Metrik
Distanzmatrix für metrische Daten II
Oft gebrauchte Distanzmatrix ist dei Quadrierte Euklidische Distanz
Sie hebt eventuelle Ausreißer besser hervor als die Euklidische Distanz, weil große Mermalsdifferenzen wegen der fehlenden Wurzel stärker ins Gewicht fallen.
Bei den besprochenen Distanzmaßen für metrische Variablen ist zu berücksichtigen, dass verschiedene Maßeinheiten der Variablen zu unterschiedlichen Varianzen führen und der Einfluss einer Variablen auf das Ergebnis der Clusteranalyse mit der Größe der Varianz steigt. Wie bereits erwähnt, sollte man vor der Distanzberechnung die Daten stets standardisieren. Sind jedoch aus der Anwendungssituation heraus ungleiche Gewichte der Variablen gewünscht, so sollten die standardisierten Werte in einem zusätzlichen Rechenschritt noch mit einem individuellen Gewicht multipliziert werden.
Distanz- und Ähnlichkeitsmaße für ordinal skalierte Variablen
Speziell für ordinal skalierte Variablen gibt es bislang nur relativ wenige, nicht immer befriedigende Distanz- und Ähnlickeitsmaße. Eines ist Canberra-Metrik
Ein weiteres, in der Praxis verbreitetes Verfahren, Distanzen ordinal skalierter Variablen zu berechnen, ist die Behandlung ordinal skalierter bzw. rangskalierter Variablen wie metrischer Variablen. Dieses an sich unzulässige Vorgehen, kann dadurch gerechtfertigt werden, dass gezeigt werden konnte (z. B. Labovitz 1970, S. 515-524), dass sich die Ergebnisse bei beiden Vorgehensweisen nur wenig unterscheiden, so dass die methodische Ungenauigkeit meist nur geringe – unter praktischen Gesichtspunkten vernachlässigbare – Auswirkungen nach sich zieht.
Distanz- und Ähnlichkeitsmaße für nominal skalierte Variablen I
Bei nominal skalierten Variablen ist es nicht sinnvolll, Merkmalsdifferenzen zu berechnen und zur Konstruktion eines Distanz- oder Ähnlichkeitsmaßes zu nutzen. Das einzige worauf sich die Ähnlichkeitsmessung in diesem Fall stützen kann, ist die Überprüfung, ob die Merkmalsausprägungen zweier Objekte übereinstimmen oder nicht.
Distanz- und Ähnlichkeitsmaße für
nominal skalierte Variablen mit zwei Ausprägungen und
nominal skalierte Variablen mit mehr als zwei Ausprägungen sollten getrennt behandelt werden.
Distanz- und Ähnlichkeitsmaße für nominal skalierte Variablen II
Allgemein gilt
Ähnlichkeitsmaße:
Simple Matching (Einfache Übereinstimmung): SM = (a+d)/n
Russel und Rao RR: RR = a/n
Jaccard (Tanimoto): J = a/(a+b+c)
-> Ähnlichkeitsmaße können nur Werte zwischen 0 und 1 annehmen
-> Je näher der Wert an der 1 liegt, desto ähnlicher sind sich die jeweiligen Merkmalsausprägungen
-> Je näher der Wert an der 0 liegt, desto unnähnlicher
Gruppierungsverfahren der Clusteranalyse
hirarchisch
agglomerativ
Single-Linkage
Complete-Linkage
Ward-Verfahren
Flexivle Strategie
diversiv
partitionierend
nicht-iterativ
iterativ
k-means Verfahren
Austauschverfahren
Hirachischer Verfahren der Clusteranalyse
Agglomerative (aufbauende) Verfahren bilden durch die fortlaufende Zusammenfassung von Objekten immer größere Cluster. Sie beginnen damit, dass jedes Objekt ein eigenes Cluster bildet und fassen dann in jedem Schritt jeweils zwei Cluster zusammen, bis schließlich alle Objekte in einem einzigen Cluster vereinigt sind.
Divisive (abbauende) Verfahren bilden umgekehrt durch fortlaufende Zerlegung der Objektmenge immer feinere Cluster. Sie starten mit dem großtmöglichen Cluster, das sämtliche Objekte enthält und unterteilen dieses sukzessive in immer kleinere Cluster, bis schließlich jedes Objekt ein eigenes Cluster bildet.
Die agglomerativen Verfahren folgen alle einem einheitlichen Algorithmus
Zu Beginn bildet jedes Objekt ein eigenes Cluster.
Fusioniert werden dann diejenigen beiden Cluster l und m, deren Distanz dlm am geringsten ist. Auf der Grundlage dieser Aufteilung wird nun eine neue Distanzmatrix erstellt, die ihrerseits wieder Ausgangspunkt einer erneuten Fusion ist. Dieser Prozess wird solange fortgesetzt, bis sich alle Objekte in einem einzigen Cluster befinden.
Kategoriale Merkmale
Frage ist wie man für kategoriale Variablen Distanzen berechnen kann
Lösung: Dummy Variablen
Ein kategoriales Merkmal mit N möglichen Ausprägungen wird zu N binären Merkmalen
Dummy Varibale - Beispiel
Das wohl meist gebrauchte und empirisch erfolgreichste hierarchische Gruppierungsverfahren ist das Verfahren von Ward. Es unterscheidet sich von den anderen hierarchischen Gruppierungsverfahren vor allem dadurch, dass nicht lediglich diejenigen Cluster zusammengefasst werden, die die geringste Distanz aufweisen, sondern diejenigen Cluster, die ein vorgegebenes Heterogenitätsmaß am wenigsten vergrößern. Ziel des Ward-Verfahrens ist es, jeweils diejenigen Cluster zu vereinigen, welche die Abstandsquadratsumme (AQS) innerhalb der Cluster möglichst wenig erhöhen. Als Homogenitätsmaß dient das sogenannte Abstandsquadratsummenkriterium(AQS-Kriterium, Varianzkriterium).
Da der durch die Fusion von Al und Am bewirkte Zuwachs der AQS wieder als Distanz interpretiert werden kann – es werden ja die Cluster mit dem geringsten Zuwachs fusioniert – ergibt sich für die Distanz:
Beispiel siehe Skript 8 Seiten 28 - 32
k-means Algorithmus
Wahl des k
Ziel: Finde das k, dass WSS minimiert
Problem: WSS wird kleiner, wenn k steigt!
Lösung: Wenn WSS/TSS < 0,2 bei steigendem k, halte k fest. (TSS=WSS+BSS)
Beispiel zu k-means Skript 8 Seiten 42 - 52
Zuletzt geändertvor 2 Jahren