Erkläre den Zusammenhang zwischen Self-Attention, Multi-Head-Attention und Layern.
Layer:
jeder Transformer besteht aus vielen hintereinander kommenden Layern
jeder Layer hat einen Self-Attention Layer, auf diese folgt Normalisierung, einen Feed forward layer
Self-Attention:
besteht aus vielen parallel laufenden Attention-Heads
diese fokusieren sich auf unterschiedliche Beziehungen der Iput Sequenz
Ergebnisse werden im lineraren Feed forward Layer vereint
dienen als Input für den nächsten Layer
Von Layer zu Layer werden die betrachteten Bezieungen immer abstakter
=> so können komplexe Zusammenhänge erkannt werden
Wieso ist es wichtig Attention visualisieren zu können?
kann helfen ein Model zu intepretieren -> zeit wie das Model weights verschiedenen Input Werten zuweist
Problem: individuelle Predicitons zu erklären ist nur begenzt möglich
Welche Möglichekeiten gibt es zur Visualisierung von Attention?
Attention-Matrix-Heatmaps
Bipartite Graph Representationen
Welche Probleme gibt es bei der Visualisierung?
Verschiednene Attention Patterns für jeden Layer und jeden Head
bsp BERTlarge: 24 Layers x 16 heads = 384 einzigartige Attention Strukturen für jeden Input
Welche Visualiserungsebenen bietet BERTVis?
High level model view
Visulaisiert alle Layer und Attention Heads in einem Interface
Low level neuron view
wie die einzelnen Neurone interagieren um Attention zu produzieren
Attention head View
zeigt die Interaktion innerhalb eines Attention Heads
Wofuer kann die Visualisierung von Attention auf verschiedenen Ebenen genutzt werden?
Erkennen von Bias im Model
Bsp Geschlechter Bias
Lokalisieren von relevanten Attention Heads
Verbindungen zwischen Neuronen und Modelverhalten herstellen
Attention-head view
Viualisiert die Attention Muster bei einem oder mehreren Attention-Heads aus einem Layer
=> da Attention-Heads sich keine Paramenter teilen lernt jeder Head einen einzigartigen Attention Mechanismus
Neben Positionsmustern werden auch weitere Eigenschaften gespeichert:
lexicale Muster
benannte Entitäten (Orte, Namen, Firmen)
Zeichensetzung
Subjekt-Verb Paare …
Use-Case:
Bias im Model finden
=> kann so entdeckt und kontrolliert werden
Model View
Vogelperspektive von Attention über alle Layer und Heads für spezifischen Input
Attention Heads in Tabellen Form
Zeilen: Layer
Spalten: Heads
=> schnelle Übersicht Über Attention Muster durch Model hinweg -> einfaches Erkennen von der Veränderung der Muster
Wichtige Attention-Heads lokalisieren
wenn man bei bestimmten Aufgaben an bestimmten Erkenntnissen interessiert ist
kann draufklicken und sich dann genauer anschauen
Neuron View
visualisiert die individuellen Neuronen in den Query, Keys und Vektoren
zeigt wie diese interagieren um Attention zu bilden
Transformer nutzen scaled dot-Products
=> zeigt wie Attention Patterns gelernt werden
Einzelne Neuronen mit Modelverhalten zu verknüpfen
Wie funktioniert Dot-Product-Attention?
Query q = Vektor des ausgewälten Tokens der Attention payed
Key k = Vektor von jemdem Token der Aufmerksamkeit erhält
qxk (Elementweise) = Elementweises Produkt von jedem Query Vektor mit jedem Key Vektor
Last changed3 days ago