Visualisierung von Attention

by Bianca K.

Erkläre den Zusammenhang zwischen Self-Attention, Multi-Head-Attention und Layern.

Layer:

jeder Transformer besteht aus vielen hintereinander kommenden Layern
jeder Layer hat einen Self-Attention Layer, auf diese folgt Normalisierung, einen Feed forward layer

Self-Attention:

besteht aus vielen parallel laufenden Attention-Heads
- diese fokusieren sich auf unterschiedliche Beziehungen der Iput Sequenz
Ergebnisse werden im lineraren Feed forward Layer vereint
- dienen als Input für den nächsten Layer
Von Layer zu Layer werden die betrachteten Bezieungen immer abstakter

=> so können komplexe Zusammenhänge erkannt werden

Wieso ist es wichtig Attention visualisieren zu können?

kann helfen ein Model zu intepretieren -> zeit wie das Model weights verschiedenen Input Werten zuweist
Problem: individuelle Predicitons zu erklären ist nur begenzt möglich

Welche Möglichekeiten gibt es zur Visualisierung von Attention?

Welche Probleme gibt es bei der Visualisierung?

Verschiednene Attention Patterns für jeden Layer und jeden Head
bsp BERTlarge: 24 Layers x 16 heads = 384 einzigartige Attention Strukturen für jeden Input
Polysemantizität
= 1 Neuron kann mehr als ein Konzept lernen
- kann über verschiedene Layer verteilt sein
=> wenn Konzepte nicht einem Layer/Head/Neuron zugeordnet werden können -> wie interpretieren

Welche Visualiserungsebenen bietet BERTVis?

High level model view
- Visulaisiert alle Layer und Attention Heads in einem Interface
Low level neuron view
- wie die einzelnen Neurone interagieren um Attention zu produzieren
Attention head View
- zeigt die Interaktion innerhalb eines Attention Heads

Wofuer kann die Visualisierung von Attention auf verschiedenen Ebenen genutzt werden?

Attention-head view

Viualisiert die Attention Muster bei einem oder mehreren Attention-Heads aus einem Layer

=> da Attention-Heads sich keine Paramenter teilen lernt jeder Head einen einzigartigen Attention Mechanismus

Neben Positionsmustern werden auch weitere Eigenschaften gespeichert:
- lexicale Muster
- benannte Entitäten (Orte, Namen, Firmen)
- Zeichensetzung
- Subjekt-Verb Paare …

Use-Case:

=> kann so entdeckt und kontrolliert werden

Model View

=> schnelle Übersicht Über Attention Muster durch Model hinweg -> einfaches Erkennen von der Veränderung der Muster

Use-Case:

Wichtige Attention-Heads lokalisieren
- wenn man bei bestimmten Aufgaben an bestimmten Erkenntnissen interessiert ist
  - kann draufklicken und sich dann genauer anschauen

Neuron View

visualisiert die individuellen Neuronen in den Query, Keys und Vektoren
- zeigt wie diese interagieren um Attention zu bilden
Transformer nutzen scaled dot-Products

=> zeigt wie Attention Patterns gelernt werden

Use-Case:

Wie funktioniert Dot-Product-Attention?

Query q = Vektor des ausgewälten Tokens der Attention payed
Key k = Vektor von jemdem Token der Aufmerksamkeit erhält
qxk (Elementweise) = Elementweises Produkt von jedem Query Vektor mit jedem Key Vektor

Wie funktioniert der Sparce Autoencoder?

schaut sich Konzepte an und wie stark diese in bestimmten Layer vertreten sind
berechnet mit Vektor von Neuron und weighted Matrix einen Score für ein Konzept in einem Layer

=> darauf trainiert den loss beim modelieren klein zu halten

Last changed
8 months ago