Buffl

7 Grundlagen maschinelles Lernen

pz
by p Z.

Folgende Fragen zu Unsupervised learnin:

  • Was ist es?

  • Was ist der Input?

  • Was wird gesucht?

  • Was versteht man unter Clustering und welche Formen gibt es?

  • Was ist die Dimesionsreduzierung?


  • Was ist es?

Unsupervised Learning = erkennen und modellieren von Zusammenhängen in gegebenen Daten ohne Zielvariable (ungelabelt)

  • Was ist der Input?

      Input: ungelabelte Daten (Inputwerte mit unbekannten Zielwerten)  Merkmale x

  • Was wird gesucht?

    Gesucht: Muster in den Daten, um daten in Cluster zu teilen oder in komprimierter Form darzustellen

  • Was versteht man unter Clustering und welche Formen gibt es?

Clustering = Datenpunkte so gruppieren, dass Punkte innerhalb eines Clusters einander ähnlich und Punkte verschiedener Cluster einander unähnlich sind

Arten:

·       Zentrumsbasiert: Datenpunkte werden dem m nächsten liegenden Clusterzentrum zugeordnet und bilden ein Cluster —> k-Means

·       Dichtebasiert: Bereiche mit wenigen Datenpunkte (geringer Datendichte) sind die Grenzen zwischen den Clustern —> DBSCAN

·       Hierarchisch: Datenpunkte werden mithilfe des Abstands schrittweise zu immer größer (oder auch kleiner) werdenden Clustern zusammengefasst)  Agglomeratives Clustering


  • Was ist die Dimesionsreduzierung?

Dimensionsreduktion = Daten in einen niedrigdimensionalen Raum mit allen signifikanten Merkmalen transformieren

—> Abhängigkeiten zwischen den Merkmalen nutzen und Approximieren der Inputdaten, um sie in komprimierter Form darzustellen

Möglichkeit: Principal Component Analysis PCA: korrelierte Merkmale werden durch Linearkombination miteinander kombiniert, wodurch neue Merkmale entstehen


Was ist die Logistische Regression, welche Annahmen werden getroffen, Vorteile und Probleme entstehen daraus? Erkläre auch die Maximum Likelihood Methode

  • Definition: Klassifikationsalgorithmus für Vorhersage von binären Ergebnissen.

  • Ziel: Schätzung der Eintrittswahrscheinlichkeit, nutzt S-förmige logistische Funktion mit Maximalwert von 0 oder 1



Maximum-Likelihood-Methode: Schätzen der Modellparameter der logistischen Regressionsgleichung, dass diese für die beobachteten y-Werte entweder hohe oder kleine/tiefe Eintrittswahrscheinlichkeiten voraussagt


Annahmen:

  • Abhängige Variable binär

  • Keine Ausreißer

  • Linearität des Logits: lineare Beziehung zwischen den kontinuierlichen unabhängigen Variablen und der Logit-Transformation der abgängigen Variablen


Vorteile:

  • Einfacher Algorithmus (leicht implementieren, interpretieren und trainieren)

  • Gute Genauigkeit

  • Kürzere Trainingszeit (aufgrund probabilistischer Interpretation)

  • Weniger anfällig für overfitting (v.a. für kleine Datensätze)

Probleme:

  • Overfitting (wenn Anzahl der Beobachtungen < Anzahl Merkmale) —> Lösung: Random-Forest, KNN

  • Nicht alle Probleme lösbar (wenn nichtlinear) —> SVM mittels Kernel

  • Ausreißer —> Decision Trees

GPT: Maximum-Likelihood-Methode

  • Ziel: Beste Sigmoid-Kurve finden, die Wahrscheinlichkeit für Klassenzugehörigkeit modelliert.

  • Methode: Maximiert Wahrscheinlichkeit der beobachteten Daten mit gegebenen Parametern.

  • Annahmen: Binäre Zielvariable, keine Ausreißer, Linearität zwischen unabhängigen Variablen und Logit der abhängigen Variable.


Author

p Z.

Information

Last changed