Neuronale Netze

by Sinan C.

Aus welchen wichtigen Teilen bestehen natürliche Neuronen? Was ist ihre besondere Eigenschaft und wo ist diese realisiert?

Natürliche Neuronen bestehen aus Kern, Zellkörper, Zellmembran, Dendriten (Eingangsleitung), einem Axon (Ausgangsleitung) und Synapsen.

Die Besonderheit an Neuronen ist die Fähigkeit Reizsignale zu verstärken oder zu hemmen. In der Natur ist diese Funktion durch unterschiedliche Synapsen realisiert.

Die Kommunikation zwischen Neuronen beruht auf elektrochemischen Effekten am synaptischen Spalt zwischen Dendrit und Axon.

Ab wann leiten Neurone Signale weiter? Worin spiegelt sich die Reizstärke wieder?

Neuronen leiten Signale weiter, sobald eine bestimmte Reizschwelle überschritten ist (das Neuron feuert). Es erzeugt dann eine Folge von Impulsen gleicher Amplitude.

Die Stärke eines Reizes wird durch die Frequenz der Impulse wiedergegeben. Ruhepotential = -75mV ; Aktionspotential = +35mV

Wie sieht das Reizstromdichte-Impulsfrequenz-Diagramm aus?

Kapitel 2 Seite 20

Welche besondere Fähigkeit haben Neuronale Netze?

Die Besonderheit an Neuronalen Netzen ist ihre Lernfähigkeit. Diese basiert erneut auf den synaptischen Verbindungen, die sich mit der Zeit ändern können. Dieser Vorgang dient der Adaption (Anpassung) an neue Bedingungen und der Generalisierung (Interpolation)

Was ist ein Neuron aus systemtheoretischer Sicht?

Aus systemtheoretischer Sicht gesehen ist ein Neuron ein nichtlineares System mit n Eingangsgrößen x_i und einer Augangsgröße y

Was ist dann ein Neuronales Netz?

Ein Neuronales Netz besteht aus einer Vielzahl untereinander verknüpfter Neuronen

Was ist das Ziel künstlicher Neuronaler Netze?

Ihr Ziel ist es die Lernfähigkeit der natürlichen Neuronalen Netze nachzubilden und diese technisch nutzbar zu machen

Wann und von wem wurden das erste mathematische Neuronen-Modell bzw. das erste Lernverfahren entwickelt?

Das erste mathematische Neuronen-Modell wurde 1943 von W.S.

McCulloch und W. Pitts entwickelt. Das erste Lernverfahren wurde 1949 von D.O. Hebb formuliert

Aus welchen wichtigen Teilen bestehen künstliche Neuronen? Was sind ihre biologischen Analogien? Wo findet hier die größte Abstraktion statt?

Warum wird in der Regel die Zahl der Eingänge eines Neurons künstlich um einen Eingang erweitert?

Über den zusätzlichen Eingang wird der Schwellwert / Bias b in den Gewichtsvektor des Skalarproduktes integriert. Der Eingangswert wird dazu auf 1 gesetzt. Das erleichtert die mathematische Handhabung und Beschreibung des Neurons.

z = w'x – b => z = w'x

Was sind die wichtigsten Aktivierungsfunktionen?

Die wichtigsten Aktivierungsfunktionen sind:

■Sättigunsfunktion

■Fermi-Funktion

■Heavyside-Funktion

■lineare Funktionen

Was bedeuten die Indizes der Gewichte?

Die Indizes der Gewichte w_r_j_l haben folgende Bedeutungen:

■r: Eingangsgewicht der r-ten Schicht (auf die die Verbindung zielt)

■j: Index des Neurons der Schicht r (auf das die Verbindung zielt)

■l: kommt vom Neuron l der vorherigen Schicht

Wie sieht die allgemeine Struktur eines künstlichen Neuronalen Netzes aus?

Die typische Struktur von künstlichen Neuronalen Netzen ist eine Schichtstruktur. Pro Schicht werden dabei selten mehr als zwei verschiedene Neuronentypen (also Neuronen mit unterschiedlicher Aktivierungsfunktion) verwendet:

Eingangsschicht
Verdeckte Schichten
Ausgangsschicht

Die Eingabeschicht enthält keine Neuronen. Jedes Neuron ist mit allen Neuronen der nachfolgenden Schicht verknüpft. Die Eingänge der Folgeneuronen sind jeweils mit Gewichten w gewichtet.

Wie kann man Neuronale Netze darstellen?

Neuronale Netze sind als Kennfeld und als nichtlineare Funktion darstellbar. Außerdem möglich sind die Auflistung von Aktivierungsfunktionen und Gewichten sowie die Auflistung von Aktivierungsfunktionen und Lerndaten

Was stellen Neuronale Netze mit nichtlinearen Aktivierungsfunktionen dar? Was sind die Voraussetzungen dafür?

Diese Art von Netzen sind universelle Approximatoren. Das bedeutet sie können, wenn sie richtig strukturiert sind, jeden Zusammenhang der Form y=g(x) beliebig genau nachbilden. Einbauvoraussetzungen sind:

■verdeckte Schicht mit ausreichend vielen Neuronen

■Aktivierungsfunktion ist in dieser Schicht stetig, begrenzt und nicht konst.

■Ausgabeneuron hat eine lineare Aktivierungsfunktion

Warum werden die Ein- und Ausgangsgrößen eines Neuronalen Netzes meistens umskaliert?

Die Umskalierung der Daten ist notwendig, da die Aktivierungsfunktionen auf ein bestimmtes Intervall begrenzt ist z.B. [0,1] oder [-1,1]. Die Ein- und Ausgangsgrößen dagegen decken meistens jedoch einen größeren Wertebereich ab. Deshalb werden sie wie folgt transformiert.

y_neu = (b-a)*y + a

Allgemein ergibt sich daraus auch der numerische Vorteil, dass die Gewichtsmatrix W gut konditioniert ist und somit Fehler bei der Berechnung vermieden werden. Man sollte die Werte deshalb immer Skalieren

Was bedeutet Lernen bezogen auf Neuronale Netze?

Lernen bedeutet, dass das Neuronale Netz:

das durch Lerndaten vorgegebene Verhalten möglichst gut reproduziert
und darüber hinaus auch zwischen den Lerndaten passende Werte liefert

Beim „überwachten Lernen“ versucht man den Fehler zwischen gewünschtem und berechnetem Ausgangswert zu minimieren

Wie viele Schichten benötigen lineare Neuronale Netze?

Lineare Neuronale Netze benötigen nur eine Schicht. Denn weitere Schichten würden kein anderes Verhalten ermöglichen.

Die Anzahl der Neuronen in dieser Schicht ist gleich der Anzahl der Ausgangsgrößen

Wie Lernen lineare Neuronale Netze?

Lineare Neuronale Netze lernen mit dem Verfahren der kleinsten Quadrate. Die Gewichte sind damit direkt aus den gemessenen Ein- und Ausgangsgrößen ermittelbar. Dabei wird der quadratische Fehler zwischen den realen Daten und denen des Netzes minimiert.

W = YX' * inv(XX')

Wofür kann man ein lineares Neuronales Netz verwenden?

Aufgrund der Linearität ist der Anwendungsbereich stark eingeschränkt. Möglich ist z.B. ein Einsatz zur Mustererkennung. Es lassen sich aber nur Klassen unterscheiden, die durch eine Gerade getrennt werden können

Wie nennt man die Trennebenen zwischen Klassen?

Man nennt sie Hyperebenen. Ihre Form hängt von der Arte des Neuronalen Netzes und der Anzahl der Ein- und Ausgangsgrößen ab

Warum gibt es beim Lernen mehrere globale Minima?

Da alle Eingänge mit allen Neuronen verknüpft sind, könnte man ein Neuron sowie dessen Ein- und Ausgangsgewichte mit einem anderen Neuron tauschen. Trotzdem würde man das gleiche Ergebnis erhalten. Verschiedene Netze können sich also exakt gleich verhalten. Deshalb ist auch das Optimum nicht eindeutig und es gibt mehrere globale Minima

Was ist ein Multilayer-Perzeptron?

Ein Multilayer-Perzeptron ist ein Neuronales Netz mit mehreren Neuronenschichten. Jedes Neuron ist dabei vollständig mit den Neuronen der nachfolgenden Schicht vernetzt. Die Aktivierungsfunktionen aller Neuronen sind sigmoidal (meist Fermi-Funktion).

Die meisten MLPs haben zwei bis drei Schichten. Die Schichten zwischen der Ein- und Ausgangsschicht werden verdeckte Schichten genannt

Wie trainiert man Multilayer-Perzeptrons?

Auch bei MLPs wird der quadratische Fehler minimiert. Um das Minimum zu finden verwendet man das Gradientenverfahren, da dies aufgrund der Nichtlinearität nur iterativ und nicht analytisch bestimmbar ist.

w(t) = w(t-1) – h * (de/dw) ; mit (de/dw) = Ableitung des Fehlers

Dieses Verfahren kann auf zwei Arten angewendet werden:

On-line-Lernen: berücksichtigt ein Lerndatenpaar
Off-line-Lernen: berücksichtigt alle Lerndaten

Das On-line-Lernen konvergiert dabei in der Regel etwas schneller.

Die Berechnung der Gewichte erfolgt dann rückwärts von der Ausgangs- zur Eingangsschicht mit dem δ-Operator. Aufgrund dieser rekursiven Berechnung nennt man es Backpropagation-Verfahren

Wofür ist beim Backpropagation-Verfahren der δ-Operator wichtig?

Der δ-Operator wird beim Backpropagation-Verfahren für die Berechnung der Ableitung des Fehlers verwendet. Diese wird für das Gradientenverfahren verwendet.

δ = (de/dz)

In der Ausgangsschicht eines Netzes kann der δ-Operator direkt berechnet werden. Für die verdeckten Schichten wird er rekursiv ermittelt, da sich die Änderung eines Neurons auf den Fehler aller nachfolgenden auswirkt

Welche Erweiterungen gibt es für das Backpropagation-Verfahren? Welchem Zweck dienen sie?

Welches besonders effiziente Verfahren wurde aus dem Backpropagation-Verfahren abgeleitet?

Das RPROP-Verfahren (Resilient Backpropagation) wurde aus dem Backpropagation-Verfahren abgeleitet.

Dieses verwendet den Gradienten nur noch zur Wahl des Vorzeichen. Das verhindert, dass beim Übergang vom unsensiblen Bereich der Fermi-Funktion in den sensiblen durch die großen Gradienten große Gewichtsänderungen folgen. Ohne diese Erweiterung besteht die Gefahr über das Ziel heraus zu schießen, bevor die Schrittweite verringert wurde.

Warum trennt man die zur Verfügung stehenden Lerndaten in Trainings- und Validierungsdaten auf?

Durch das Aufteilen der Daten verhindert man die Überanpassung oder Übergeneralisierung des Netzes.

Diese entsteht dadurch, dass das Netz die Störungen in den Lerndaten mitlernt und somit zu gut an diese angepasst wird. Eingangsdaten führen dann nicht mehr zu den gewünschten Ausgangsdaten. Das Generalisierungsverhalten hat sich also verschlechtert.

Deshalb wird der Lernvorgang mit den Trainingsdaten durchgeführt und das Ergebnis anhand der Validierungsdaten überprüft

Wozu benötigt man Radial-Basifunktionen-Netzte? Was ist ihr

entscheidendes Merkmal?

RBF-Netze zeichnen sich dadurch aus, dass sie lokal begrenzte Aktivierungsfunktionen verwenden (z.B. die Gauß-Funktion). Diese erzeugen im Gegensatz zu sigmoidalen Aktivierungsfunktionen keine Ausgangswerte, wenn die Eingangswerte weit abseits der Lernwerte liegt.

Daraus resultieren bessere Eigenschaften bei der Approximation vor (begrenzten) Funktionen. Außerdem ergeben sich Vorteile bei der Klassifizierung bestimmter Muster

Wie ist ein RBF-Netz in der Regel aufgebaut?

Ein RBF-Netz besteht zuerst aus einer Schicht, die die Eingangsdaten x_i nichtlinear transformiert. Dabei hat die nichtlineare Abbildung die wichtige Eigenschaft, dass sie radial symmetrisch ist. In der zweiten Schicht folgt ein lineares Neuron eventuell mit Bias

Aus was setzt sich die Ausgangsfunktion eines RBF-Netzes zusammen?

Die Ausgangsfunktion eines RBF-Netzes setzt sich aus einer Überlagerung von Hyper-Gauß-Glocken zusammen

Wie trainiert man RBF-Netze?

RBF-Netze können über ein Gradientenverfahren ähnlich dem Backpropagation-Verfahren oder RPROP trainiert werden.

Die Parameter des Netzes lassen sich aber oft auch wesentlich einfacher aus den Lerndatenpaaren bestimmen. Das ist besonders dann sinnvoll, wenn die Anzahl der Gauß-Neuronen der Zahl der Lerndatenpaare entspricht. Ist das nicht der Fall, teilt man die Lerndatenpaare in verschiedene Klassen ein und bestimmt deren Mittelwert.

Sollte dies zu nicht ausreichenden Ergebnissen führen, greift man auf Backpropagation oder RPROP zurück

Wie werden dann die Radien der Klassen bestimmt?

Die Radien der Klassen werden aus dem maximalen Abstand der Zentren d und der Anzahl q der Neuronen bestimmt.

σ = d/sqrt(2*q)

Bei RBF-Netzen ist nur die Ausgabeschicht gewichtet. Wie werden diese Gewichte berechnet?

Zur Berechnung der Gewichte der Ausgangsschicht betrachtet man die Gauß-Neuronen getrennt von der linearen Schicht. Die Gewichte der linearen

Schicht berechnet sich dann wieder mittels des Verfahren der kleinsten Quadrate.

W = YX' * inv(XX')

Wie lauten die Lerngleichungen für RBF-Netze?

Es gibt drei Lerngleichungen für RBF-Netze. Eine für die Gewichte w, eine

für die Zentren c der Klassen und eine für deren Radien σ:

w(t) = w(t-1) – h * (de/dw)
c(t) = c(t-1) – h * (de/dc)
σ(t) = σ(t-1) – h * (de/dσ )

Es werden also alle Parameter über Gradientenformeln bestimmt

Wie kann man die Cluster-Erfassung von RBF-Netzen verbessern?

Zur Verbesserung der Cluster-Erfassung erweitert man die Gauß-Neuronen um die Σ-Matrix. Dadurch werden Hyper-Ellipsoide möglich. Diese sind zur Erfassung bestimmter Cluster besser geeignet als kreisförmige Gauß-Glocken.

Wie kann man den Verlauf der Gauß-Glocken glätten? Wofür ist das sinnvoll?

Die Glättung der Gauß-Glocken erreicht man durch die Normierung des Ausgangs des RBF-Netzes. Es ist dann zu beachten, dass die Ausgabeschicht des Netzes nicht mehr linear ist.

Die Normierung macht bei Interpolations- und Approximationsaufgaben Sinn.

Im Gegensatz dazu eignen sich Gauß-Glocken mit lokaler Trennung besser zur Mustererkennung.

Aus welchen Elementen besteht eine Mustererkennung?

Welcher Netztyp ist für die Mustererkennung am besten geeignet?

Das hängt von der Clusterverteilung bzw. der Form und Anzahl der Cluster ab. Lassen sich die Cluster am einfachsten durch Geraden trennen sind MLPs im Vorteil. Bei kreis- oder ellipsenförmigen Clustern wählt man RBF-Netze.

In der Praxis wählt man den Netztyp oftmals durch Ausprobieren

Was muss man bei der Modellierung und Identifikation dynamischer Systeme bestimmen?

Man muss eine geeignete Systemstruktur (z.B. DGL) und die zugehörigen Systemparameter (z.B. Koeffizienten der DGL) bestimmen

Welche drei wichtigen Fälle sind dabei zu unterscheiden?

Wie lassen sich lineare Modelle einteilen? Was unterscheidet die einzelnen Typen?

Bei welchen Systemen wird die Anwendung von Neuronalen Netzen sinnvoll?

Die Anwendung von Neuronalen Netzen ist besonders bei nichtlinearen System interessant, da für lineare Systeme die klassischen Methoden ausreichen.

Man unterscheidet dann NIIR-/NARX-, NAR- und NFIR-Modelle. Diese sind die nichtlinearen Versionen von IIR/ARX, AR und FIR

Welche Faustregeln gelten bei der Wahl der Anzahl der Eingänge und Neuronen sowie des Netztyps?

Welche Art von Regler stellt ein Neuronales Netz dar?

Neuronale Netze stellen wie Fuzzy-Regler nichtlineare Kennfeldregler dar

Wann werden neuronale Regelungen sinnvoll? Welche Probleme treten bei reinen neuronalen Regelungen auf?

Neuronale Regelungen werden bei komplexen Regelaufgaben sinnvoll, die klassisch nicht ausreichend lösbar sind. Bei reinen Neuronalen Regelungen (auch direkte genannt) treten folgende Probleme auf:

Stabilität ist nicht oder schwer nachweisbar
Training des Netzes ist aufwändig und komplex
Arbeitsweise des Netzes ist nicht transparent

Wie können konventionelle Regler durch Neuronale Netze ergänzt werden?

Folgende Ergänzungen sind möglich:

Nachbildung eines (inversen) Kennfeldes mit Anpassungsmöglichkeit durch on-line Nachlernen (schwer zu überwachen)
Konventioneller Regler stellt Basis-Regelgüte (z.B. für lineares Teilmodell) und Neuronaler Regler verbessert diese (z.B. für nichtlineares Teilmodell)

Veränderungen der Netzgewichte durch Nachlernen werden auf bestimmte Bereiche begrenzt, damit eine Abschätzung des Regelverhaltens möglich ist

Welche Möglichkeiten gibt es außer Neuronalen Netzen zur Interpolation bzw. Approximation funktionaler Zusammenhänge?

Folgende Methoden eignen sich ebenfalls zur Interpolation bzw. Approximation funktionaler Zusammenhänge:

algebraische Polynome
kubische Splines
verallgemeinerte Mittelwertbildung

Wie unterscheiden sich Interpolation und Approximation?

Die Interpolation legt eine (möglichst glatte) Kurve exakt durch eine Anzahl von (meist wenigen) Stützstellen.

Die Approximation findet dagegen eine Ausgleichskurve durch die Umgebung von (meist vielen) Stützstellen, so dass die Summe aller Abstände der Stützstellen von der Kurve möglichst klein ist

Welcher Zusammenhang besteht zwischen Polynomansätzen und Multilayer-Perzeptrons?

Der funktionale Zusammenhang eines MLPs mit einer verdeckten Schicht mit Fermi-Neuronen und einem linearen Ausgangsneuron entspricht einer unendlichen Polynomreihe

Gibt es einen Zusammenhang zwischen RBF-Netzen und klassischen Interpolations- bzw. Approximationsmethoden?

Ein normiertes RBF-Netz ist in seiner Struktur identisch mit der Approximationsfunktion der verallgemeinerten Mittelwertbildung

Welche Querverbindung besteht hier zur Fuzzy Logik?

Auch mit einem Fuzzy System ist dieselbe Ein-/Ausgabestruktur erzeugbar, wie sie die verallgemeinerte Mittelwertbildung besitzt. Dafür gelten folgende Voraussetzungen:

Zugehörigkeitsfunktionen der Eingänge sind Gauß-Funktionen
Algebraische(s) Produkt und Summe als Fuzzy-UND- und ODER-Operator
Akkumulation mit der normalen Summe
Zugehörigkeitsfunktion der Ausgänge sind Singletons (eine Regel wirkt pro Singleton)
Defuzzifizierung mit COA

Join Course

Preview

Author

Sinan C.

Information

Last changed
4 months ago

Report course