Einführung Maschinelles Lernen

by Preymao

Wie berechnet sich die bedingte Wahrscheinlichkeit?

P(A|B) = P(A ∩ B) / P(B), für P(B) ≠ 0

Was sind die vier Annahmen des modellbasierten Reinforced Learning (RL)?

Der Agent kann den Zustand der Welt wahrnehmen oder schätzen.
Der Agent kennt die aktuelle Belohnung.
Die Zeit ist diskret.
Der Agent kann handeln und dadurch die Welt verändern.

Was ist der Unterschied zwischen modellbasiertem und modellfreiem Reinforcement Learning?

Modellbasiertes RL lernt bzw. nutzt ein Modell der Welt, also Übergangswahrscheinlichkeiten und Belohnungsfunktion eines MDP. Modellfreies RL lernt direkt Werte von Zustands-Aktions-Paaren, ohne Übergangsmodell, z. B. Q-Learning.

Warum heißt es Naive Bayes’sche Klassifikation?

Weil die bedingte Unabhängigkeit der Attribute gegeben der Klasse angenommen wird:

Diese Annahme ist „naiv“, weil sie oft nicht wirklich stimmt, aber praktisch nützlich ist.

Definieren Sie den Markov-Entscheidungsprozess!

Ein MDP erweitert die Markov-Kette um Aktionen und Belohnungen. In jedem Zustand wählt der Agent eine Aktion; der Zustandsübergang nach s' hängt von Zustand s und Aktion a ab und ist mit einer Belohnung R(s,a,s') verbunden.

Ist das Markov-Zufallsfeld ein gerichteter oder ungerichteter Graph?

Ungerichteter Graph.

Was sind die beiden Hauptunterschiede zwischen Markov-Ketten und Markov-Feldern?

Markov-Ketten sind gerichtete, lineare/zeitliche Modelle; Markov-Felder sind ungerichtete Graphen.
Bei Markov-Ketten hängt der nächste Zustand nur vom aktuellen Zustand ab; bei Markov-Feldern hängt ein Standort nur von seiner lokalen Nachbarschaft ab.

Wie viele mögliche Konfigurationen gibt es, wenn L diskret ist?

Definieren Sie Konfiguration und Konfigurationsraum, unter Bezug auf m und M!

Eine Konfiguration ist eine vollständige Zuordnung f : S → L, also ein Label für jeden der m Standorte. Der Konfigurationsraum ist die Menge aller möglichen Konfigurationen. Bei diskreten Labels mit |L| = M gilt: Anzahl der Konfigurationen =

Definieren Sie bei Markov-Zufallsfeldern die Begriffe Site und Label!

Site = Standort/Beobachtungspunkt, also Element aus S = {1,...,m}.

Label = mögliche Interpretation/Kategorie/Wert, der einem Standort zugewiesen wird; diskret z. B. L = {1,...,M}.

Wozu dienen Convolution-Schichten in einem CNN?

Sie falten lokale Bildbereiche mit Filterkernen und lernen dadurch automatisch lokale Merkmale wie Muster oder Strukturen. Die räumliche Struktur des Bildes bleibt dabei erhalten.

Wozu dienen Pooling-Schichten in einem CNN?

Sie bündeln mehrere Ausgaben aus einem Bildbereich, reduzieren die Datenmenge und konzentrieren die Verarbeitung auf lokale Bildbereiche, bevor an spätere Schichten weitergegeben wird.

Beschreiben Sie die Aktivierungsfunktion ReLU!

ReLU(x) = max(0,x). Negative Eingaben werden zu 0, positive unverändert weitergegeben. Sie ist unbegrenzt und in modernen Netzen sehr verbreitet.

Welche Eigenschaften hat eine Aktivierungsfunktion?

monoton steigend, überall definiert, stetig, differenzierbar, nicht-polynomiell und klassisch begrenzt; neuere Arbeiten lassen auch unbegrenzte Funktionen wie ReLU zu. Hauptzweck ist das Einführen von Nichtlinearität.

Beschreiben Sie die Funktionsweise eines Neurons nach McCulloch und Pitt!

Ein Neuron summiert seine Eingaben und wendet auf die Summe eine Stufenfunktion an. Bei binären Eingängen kann es so logische Funktionen wie AND oder OR realisieren.

Beschreiben Sie den Prozess hinter der Methode „Die Besten des Turniers“!

Es wird zufällig eine Teilmenge von Individuen gezogen. Jedes Individuum erhält Punkte entsprechend der Anzahl der Individuen in der Teilmenge, die eine schlechtere Fitness haben. Die Individuen mit der höchsten Punktzahl werden als Eltern für die nächste Generation gewählt.

Wie berechnet sich die Höhe eines R-Baums, wenn n Einträge enthalten sind?

Der R-Baum ist balanciert und ein Knoten enthält zwischen m und 2m Einträgen. Damit wächst die Höhe logarithmisch in n, also h = O(log n) bzw. genauer zur Basis der Verzweigung.

Nennen und beschreiben Sie die vier Hauptparadigmen der evolutionären Berechnung!

Evolutionäre Programmierung: Fokus auf Verhalten/Phänotyp, oft nur Mutation.
Evolutionsstrategien: Optimierung reeller Parameter, starker Fokus auf Mutation/Rekombination.
Genetische Algorithmen: meist bitstringbasierte Kodierung, Selektion + Crossover + Mutation.
Genetische Programmierung: Entwicklung ganzer Programme, meist Baumstrukturen.

Beschreiben Sie die vier klassischen Schritte des evolutionären Berechnungsalgorithmus!

Kodierung/Initialisierung einer Population von Individuen.
Auswertung: Fitness jedes Individuums berechnen.
Auswahl guter Individuen als Eltern.
Aufzucht/Variation: Mutation und/oder Rekombination, danach nächste Generation.

Was ist ein Herbrand-Modell?

Für eine Klauselmenge W ist ein Herbrand-Modell ein Modell auf der Herbrand-Basis/Herbrand-Interpretation. Wichtig: W hat genau dann ein Modell, wenn W ein Herbrand-Modell hat.

Geben Sie ein Beispiel für eine Klausel an!

Beispiel:

ancestor(X,Y) <- parent(X,Y).

Oder als Disjunktion:

¬parent(X,Y) ∨ ancestor(X,Y).

Nennen Sie zwei Methoden, um Overfitting zu vermeiden!

Pruning / Zurückschneiden.
χ²-Zurückschneiden als Relevanztest für Knoten.

Wann wird ein Knoten zu einem Blattknoten?

Wenn alle Beispiele im Knoten dieselbe Klasse haben.
Wenn keine Beispiele mehr vorhanden sind: Mehrheitslabel des Elternknotens.
Wenn keine Attribute mehr für weitere Tests verfügbar sind: Mehrheitslabel.

Was sind Support-Vektoren?

Die Trainingspunkte mit minimalem Abstand zur Maximum-Margin-Hyperebene. Sie bestimmen die Lage der trennenden Ebene.

Wie viele Lernprobleme müssen bei VC-Dimensionen auf N Punkten erfüllt werden?

2^N. Denn N Punkte können in 2^N Arten als positiv/negativ gelabelt werden.

Beschreiben Sie Ziele und Regeln der Perceptron-Lernregel!

Ziel ist Minimierung von Fehlklassifikationen durch Anpassen der Gewichte.

Regel:wi ← wi + α(t-o)xi

Wenn t=o, bleibt wi gleich.
Wenn t=1 und o=0, werden passende Gewichte erhöht.
Wenn t=0 und o=1, werden passende Gewichte verringert.
Konvergenz bei linear trennbaren Daten und kleinem α.

Beschreiben Sie kurz den Kernel-Trick. Welches Problem wird wie gelöst?

Bei nicht linear trennbaren Daten werden die Daten implizit in einen höherdimensionalen Merkmalsraum abgebildet, in dem lineare Trennung möglich wird. Statt die Transformation explizit zu berechnen, nutzt man direkt Kernelfunktionen für Skalarprodukte im neuen Raum. So werden nichtlineare Entscheidungsgrenzen effizient gelernt.

Geben Sie die Formel zur Berechnung des Skalarprodukts an!

Wie lautet die Formel des statistischen Moments k-ter Ordnung?

Welche Probleme mit distanzbasierten Verfahren bekommt man bei hoher Dimensionalität?

Fluch der Dimensionalität: Abstände werden ähnlicher, Lokalität geht verloren, nächste Nachbarn sind kaum näher als entfernte Punkte, Nachbarschaften werden sehr groß.

Was ist eine maximale stabile Hyperebene und wie findet man sie?

Das ist die trennende Hyperebene mit maximalem Rand zu beiden Klassen, also Maximum Margin Hyperplane. Man findet sie durch Optimierung des Margins bzw. äquivalent Minimierung von ||w|| unter Separationsnebenbedingungen.

Ist der k-d-Baum balanciert?

Ursprünglich nicht. Er ist von der Einfügereihenfolge abhängig.

Welche Cluster werden bei Single Linkage verbunden?

Die beiden Cluster, deren zwei nächstgelegene Punkte den kleinsten Abstand haben. Also Minimum-Objektabstand zwischen den Clustern.

Nennen und beschreiben Sie die drei klassischen Maße der zentralen Tendenz!

Mittelwert: arithmetischer Durchschnitt.
Median: Wert, der die sortierten Daten halbiert.
Modus: am häufigsten auftretender Wert.

Wieso ist die Kompaktheit kein gutes Maß, um das richtige k für k-Means zu bestimmen?

Weil TD² mit wachsendem k automatisch sinkt. Im Extremfall hat jedes Objekt sein eigenes Cluster und TD² = 0.

Wie lautet die Formel zur Berechnung der Kompaktheit bei k-Means?

Aus welchen Schritten besteht der k-Means-Algorithmus?

k Startzentren wählen.
Jeden Punkt dem nächsten Zentroid zuordnen.
Zentroiden neu berechnen.
Schritte 2 und 3 wiederholen, bis sich nichts mehr ändert.

Was ist das Ergebnis eines hierarchischen Clusters und wie kann man es interpretieren?

Das Ergebnis ist ein Dendrogramm. Knoten sind Cluster, Blätter sind einzelne Objekte, die Wurzel enthält alle Objekte. Ein horizontaler Schnitt liefert flache Cluster, die Höhe entspricht der Clusterdistanz.

Was sagt die Korrelationsanalyse aus?

Sie beschreibt Trend bzw. Stärke des Zusammenhangs zwischen zwei Variablen, meist unter Annahme einer linearen Beziehung.

Wie misst man den Verlust bei der Regressionsanalyse?

Wofür steht PAC-Lernen und was ist die Grundidee?

PAC = Probably Approximately Correct.Grundidee: Eine Hypothese, die auf genügend vielen Trainingsdaten konsistent ist, ist mit hoher Wahrscheinlichkeit ungefähr korrekt, also hat kleinen Fehler mit hoher Wahrscheinlichkeit.

Beschreiben Sie negative Verstärkung in der operanten Konditionierung!

Ein unangenehmer Reiz wird nach einem Verhalten entfernt. Dadurch steigt die Wahrscheinlichkeit dieses Verhaltens. Beobachtet wird also eine Zunahme des Verhaltens.

Was ist der Hauptunterschied zwischen operantem und klassischem/konditioniertem Lernen?

Bei klassischer Konditionierung ist Verhalten Reaktion auf einen Reiz. Bei operanter Konditionierung ist Verhalten instrumentell und wird über seine Konsequenzen bzw. Verstärkung gelernt.

Was bedeutet Plastizität? Warum ist sie wichtig für das Lernen?

Plastizität ist die Eigenschaft von Organismen, über die Lebensspanne veränderbar und formbar zu sein. Sie ist wichtig, weil Lernen nur möglich ist, wenn sich Verhalten bzw. zugrunde liegende Strukturen an Erfahrung anpassen können.

Was ist das Kontiguitätsprinzip?

Zwei Ereignisse werden assoziiert, wenn sie wiederholt zeitlich oder räumlich gemeinsam auftreten. Neuronale Schaltkreise, die gleichzeitig aktiv sind, tendieren dazu, gekoppelt zu werden.

Beschreiben Sie die Kernidee der drei Hauptansätze des Lernens aus Sicht der Psychologie!

Behaviorismus: Lernen als Änderung beobachtbaren Verhaltens durch Reize, Reaktionen und Verstärkung.
Kognitivismus: Lernen durch mentale Informationsverarbeitung und Wissensrepräsentation.
Neurophysiologischer Ansatz: Lernen durch neuronale Veränderungen und Assoziationen, z. B. Kontiguität.

Was ist die Beziehung zwischen Wissen, Gedächtnis und Lernen?

Lernen ist der Prozess, Wissen ist der Inhalt, und Gedächtnis ist die Struktur bzw. der Speicher, in dem Wissen aufbewahrt wird.

Eine Ratte befindet sich in einem T-Maze. Links befindet sich zu 75% der Zeit Futter. In wie viel Prozent der Fälle läuft sie nach links?

75%

Geben Sie die Definition von Lernen aus psychologischer Sicht an!

Lernen ist ein Prozess, der zu relativ konsistenten Änderungen des Verhaltens oder des Verhaltenspotentials führt. Es basiert auf Erfahrungen und ist ein interner, nicht direkt beobachtbarer Prozess.

Erklären Sie Eingabe, Ausgabe und Bedeutung einer Verlustfunktion!

Eingabe sind wahres Ziel y und Vorhersage ŷ = h(x), ggf. auch x.Ausgabe ist ein nichtnegativer Fehlerwert.Bedeutung: Sie misst, wie schlecht eine Vorhersage ist; Lernen minimiert diesen Verlust.

Beschreiben Sie den Unterschied zwischen Regression und Klassifikation!

Klassifikation gibt eine Kategorie bzw. ein Label aus. Regression gibt einen metrischen Zahlenwert aus.

Definieren Sie Kraftmultiplikator und Geschwindigkeitsmultiplikator und erläutern Sie die Rolle in der Ethik, besonders in ML.

Ein Multiplikator erhöht die Leistungsfähigkeit des Menschen.

Kraftmultiplikator: reduziert den Kraftaufwand zum Bewegen eines Objekts.

Geschwindigkeitsmultiplikator: erhöht Geschwindigkeit oder zurückgelegte Strecke.

Für ML gilt: Je größer der Multiplikator, desto größer die Folgen von Fehlern und Missbrauch.

Warum wird nicht auf Testdaten gelernt? Welches Problem will man damit vermeiden?

Testdaten sollen nur die Generalisierung messen. Würde man auf ihnen lernen, wären sie nicht mehr unabhängig und das Ergebnis wäre zu optimistisch. Verhindert werden soll Overfitting an die Testdaten.

Wozu dient Regularisierung beim Lernen?

Zur Steuerung der Modellkomplexität und zur Vermeidung von Overfitting.Typisch: Cost(h) = EmpLoss(h) + λ · Complexity(h)

Wie lautet die Formel der Euklidischen Distanz und warum heißt sie L2-Abstand?

Nennen Sie 4 Probleme, die der Ansatz ethischer KI hat!

Es bleibt unklar, ab wann negative Folgen schwer genug sind, um Entwicklung zu stoppen.
Positive und negative Folgen sind schwer gegeneinander abzuwägen.
Unerwartete Folgen sind oft nicht vollständig vorhersehbar.
Hohe Machtasymmetrien, Bias und fehlende Verantwortlichkeit machen praktische Umsetzung schwierig.

Was ist der Ethik-Leitfaden der KI?

Nach den „Ethical Guidelines for trustworthy AI – EU“:Vertrauenswürdige KI soll rechtmäßig, ethisch und robust sein. Zentrale Punkte sind menschliche Autonomie, Schadensvermeidung, Fairness, Erklärbarkeit, Schutz vulnerabler Gruppen und Risikominimierung.

Geben Sie die Formel zur Berechnung der Klassifikationsgenauigkeit an, wenn die Konfusionsmatrix gegeben ist.

Klassifikationsgenauigkeit = (u + x) / (u + v + w + x)

Beschreiben Sie den Unterschied zwischen überwachtem und unüberwachtem Lernen!

Überwachtes Lernen nutzt Eingabe-Ausgabe-Paare und lernt eine Abbildung von x auf y.

Unüberwachtes Lernen hat keine Zielausgaben und sucht Struktur in Daten, z. B. Cluster.

3 Matrizen gegeben, Dimensionsreduktion durchführen!

In dem Folienbeispiel sind die Vektoren von der Form(2, 3, 2+3, 6)^T, (7, 2, 7+2, 6)^T, ..., (5, 8, 5+8, 6)^T.

Dimensionsreduktion: dritte Dimension ist redundant, weil sie Summe aus Dimension 1 und 2 ist. Vierte Dimension ist konstant und trägt keine Information. Daher wird reduziert auf(2, 3)^T, (7, 2)^T, ..., (5, 8)^T.

Join Course

Preview

Author

Preymao

Information

Last changed
4 months ago

Report course