Formeln für lernbare parameter
Vocab : vocabsize*d
Embedding: datensaztokensize*d
für die Transformerblöcke:
4*d*d
2 * 4* d*d
Gesamt: vs * d+token d+ Transformerblockzahl ( 3 * d * d)
Flop zahl berechnen
c wird approximiert durch 6* N (parameterzahl) * d
Wäre sonst zu rechenintensiv für 224224 bild wäre es schon (224*224)^2 value attention matrix
wie sieht ein Transformerblock aus
hier ist die reihenfolge wichtig, jedoch betrachtet self attention die daten als datensatz und nicht als sequenz, was sie ja eigentlich sind.
ich addiere einen positionsvektor auf den embedding vektor
ich habe drei katzen : ich erhält 1 habe 2 drei 3 katzen 4
es wird aufaddiert
wie sieht die architektur eines encoders im vergleich zu einem decoder aus
nenne beispiele für was encoer, decoder und Ecoder decoder architekturen verwendet werden
Encoder: Text klassifizierung zum beispiel modell BERT
Decoder: text generierung : GPT
Encoder Decoder: text generierung die eng an input gebunden ist: Whisper
Encoder decoder hat cross attention block
Nachteile von transformern
Vorteile von Transformern
einfach skalierbar
berechnungen für alle inputvektoren parallel durchgeführt werden
gleiche architektur für verschiedene unterschiedliche anwendungen
Last changed4 months ago