Erstellen sie eine Konfusionsmatrix für folgende ergebnisse:
Neugeborene Katze ist schwarz::
Prediction
Schwarz
Andere Farbe
Truth
Berechen sie die Accuracy, Precision, Recall
Positive
Negativ
True Positive: 2
False Negativ: 2
Negative
False Positive: 1
True Negative: 1
Accuracy = 3/6 =0,5
P(ositive)recision = 2/4 = 0,5
Recall = 2/3 = 0,66
Führen Sie eine nichtparametrische Regression mit k-NN durch, Gegeben sind nur die Trainingsdaten (scatterplot). Sie betrachten eine nuee Beobachtung x=7. Sie wählen die 4 nächsten Nachbarn aus. Wie lautet der y-Wert der nuene Beobachtung?
Y= (14+9+6+10)/4
Y=9,75
Punkt = 7/9,75
Y = (5+4+0)/3
Y = 3
Punkt = 3/3
Eine 30-Jährige Frau war in der ersten Klasse auf er Titanic, benutzen Sie den Entscheidungsbasum um vorherzusagen ob sie überlebt oder nicht. 1 beudet überleben, 0 nicht.
Frau überlebt zu 98%, leaf ganz rechts
Berechnen sie die euklidische Distanz zwischen A und C
1
24
2500
2
28
3000
3
20
2200
euklidische Distanz = a-c
euklidische Distanz = (24-20) (2500-2200)
euklidische Distanz = (4)(300)
In FOrmel einsetzten, “/ “ steht für Wurzel
euklidische Distanz = /4^2+300^2
euklidische Distanz = /16+90000
euklidische Distanz = /90016
euklidische Distanz = 300,026
Euklidische distanz zwischen a und c ist 300,026
Formeln der Ähnlichkeitsmaße für Metrisch(normale zahlen)!
euklidische Distanz
Quadrierte euklidische Distanz
Manhatten Distanz
Chebychev Distanz
Ähnlichkeitsmaße Formeln für Nominal(keine Rangordnung z.B. Fernsehsender als 1. Merkmal und Sponsoren als 2. etc):
Simple Matching
Russel und Rao
Jaccard
Was ist underfitting und was passiert dadurch Varianz/BIAS
Model ist überhaupt nicht angepasst, große Fehler( BIAS) enstehen, oft zu wenig trainingsdaten benutzt
Was ist Overfitting und was passiert dadurch Varianz/BIAS
model ist zu sehr angepasst, Overfitting meistens hohe Varianz, zu hohe varianz erklärt das rauschen der Daten, oft zu viele trainingsdaten benutzt
Wie müssen Herzen und Kreise Aufgeteilt sein, damit das Gini Unreinheitsmaß sein Maxium annimmt?
Maximum = Schlecht, da keine änhlichkeiten zwischen den Herzen und Kreisen sind.
Minimum = Gut, es sind nur änhliche in einem Cluster
Berechnen Sie die unreinheit für folgende aufteilung
Berechnen sie die unreinheit für folgende aufteilung
Sie Führen eine k-means Clusteranalyse durch. Dabei ergeben sich folgende Distanzen:
Objekt
C1
C2
C3
1,2321
0,2542
0,2652
4,321
4,2321
3,57
2,12312
10,2
5,2232
4
0
0,2423
1,232
5
2,232
4,232
1 = C2
2 = C3
3 = C1
4 = C1
5 = C3
Wie groß sollte man beim Elbow Kriteriums ein
Größer als 0,2
Wie groß sollte die Area under the Curve sein
Größer 0,9
Aufteil von test und trainingsdaten
2/3 Training und 1/3 Test, höchstens 70/30
Was für ein Adjusted R-squared ist gut?
Ab 0,6+
Sind die Residuen hier Normalverteilt? Um was für ein Graphen handelt es sich hier?
Nein!, da die punkte am anfang und ende deutlich abweichen.
Es ist ein QQplot
Sind die Anwendungsvorraussetzung für eine Regressionsanalyse hier gegeben?
◮ A1: Der Zusammenhang zwischen der abhängigen und den unabhängigen Variablen muss linear sein. Wichtig: Nicht-Linearität in den Variablen ist möglich.
◮ A2: Der Erwartungswert der Residuen ist Null.
◮ A3: Die Residuen dürfen nicht untereinander korrelieren (keine Autokorrelation).
◮ A4: Die Varianz der Residuen ist konstant und endlich (Homoskedastizität bzw. keine Heteroskedastizität).
◮ A5: Es darf kein sehr starker linearer Zusammenhang zwischen den einzelnen erklärenden Variablen bestehen (keine bzw. höchstens geringe Multikollinearität).
◮ A6: Die Residuen sind normalverteilt.
◮ A7: Zwischen den Residuen und der bzw. den unabhängigen Variablen besteht keine Korrelation (Erklärende Variablen dürfen nicht endogen sein).
Erster p-value ist ein Omnibustest, testet ob das Model ein überhaupt sinnhaft ist, ist hier der fall, da kleiner 0,05. Ja das Mopel liefert erklärungsbeitrag.
Wie gut ist dieser erklärungsbeitrag, sieht man am Adjusted R-squared. 67% der Varianz der Abhängigen Variablen können erklärt werden.
koeffizienten: Beschleunigung ist numerisch. Interpretation: WEnn die Beschleunigung um 1 einheit steigt ( In diesem Beispiel wird die Beschleunigung also langsamer), erhöhen sich die Werkstattkosten um 1,4$. Unter der bedingung das alle anderen Faktoren Konsantbleiben. Oder einfach c.p.
Wenn die Leistung um 1 KW steigt, steigen die werkstattkosten um 46cent c.p.
Wenn die laenge um 1 mm steigt, steigen die werkstattkosten um 0,006 cent c.p.
(Kraftstoff, hier geht es nicht darum das eine einheit steigt, sonder da diese nicht numerisch sind, sonder einfach Ja oder Nein sind, geht es um den Mittelwert, also wird gesagt):
Wenn ein Fahrzeug statt Diesel mit Super getankt wird, sparen wir 40,95€ im monat and werkstattkosten. WEnn Super plus getankt wird, sind 29,5€ billiger im Monat als ein Diesel.
Last changed2 years ago