undefined

Buffl

FM Bioinformatik

by Bianca K.

Wieso sollte man Transformer und Attentionmechanismen in der Biologie nutzen?

haben überlegene Perfornance beim Umgang mit komplexen genomischen Daten bewiesen
genomische Daten -> Sprache der Biologie
Tools die mit Sprachdaten umgehen können -> versteckte Muster in Sequenzen finden

Welche Besonderheiten weißt der Attentionmechanismus auf und wie funktioniert dieser?

Achtet beim generieren von Output auf verschiedene Teile des Inputs
Fähigkeit verschiedene Regionen und Beziehungen während des Interpretationsprozesses dynamisch zu betrachten

=> berechnet weighted sums von Input Features

Weights (Attention scores) sind dynamisch durch Inputdaten bestimmt
hilft mehr auf relevante Feautres zu achten

=> Erlaubt das parallele bearbeiten von Input

schneller und effizienter

Was sind die Besonderheiten eines Transformermodells und wie ist dieser allgemein aufgebaut?

besteht aus Stack von identischen Unterschichten
- Multi-head Self-Attention
- Positionell verbundene feed forward Netzwerke
=> kann Abhänigkeiten zwischen Input und Otuput unabhängig ihrer Distanz erkennen

Besonderheiten:

Weit entfernete Abhängikeiten zwischen genoomischen Positionen zu erkennen
mehrere relevante Regionen gleichzeitig zu erkennen
Adaptiv auf auffällige Features zu fokusieren

=> sehr geeignet für genomische Daten

Was sind konventionelle deep learning Architekturen?

Neuronale Netzwerke mit mehreren Layern -> fähig komplexe Muster in größeren Datensätzen zu erkennen

Multilayer Perceptron (MLP)
Convolutional Neural Network (CNN)
Recurrent Neural Network (RNN)
Generative advrsarial Network (GAN)
Graph Attention
Reduial Networks (ResNets)
Ada Boost
Seq2Vec
Variational Autoencoder (VAE)

Was ist ein Multi Layer Perceptron (MLP)?

einfachste Form eines Deep learning Models
Input Layer, 1 oder mehr Hidden LAyer, Output Layer

=> für Datensätze bei denen sich Input und Output nicht linearen Zusammenhang teilen

! nicht gut mit räumichen oder temporären Daten

Was ist ein Convoluteonal Neural Network (CNN)?

gut für räumlichen Input wie Bilder
kann druch gefaltete Layer gut räumliche Abhängigkeiten erkennen

Aufbau:

1 oder mehr Convolutional Layer
gefolgt von pooling Layer

für medizinische Bildanalyse
Gewebetypisierung

Was ist ein Recurrant Neural Network (RNN)?

Verbesserte Vatiante = long short term Memory (LSTM)
Umgang mit aufeinander folgenden Daten in Memoryartigem Mechanismus
- erlaubt von vorangegangenen Inputs der Sequent zu lernen

Proteinvorhersage
Verständins von genetischen Sequenzen

Was sind Generative adversarial networks (GANs)?

besteht aus 2 neuronalen Netzwerken (Generator, Diskriminator) die konkurieren
ermöglicht generieren von neuen syntetischen Daten ähnlich zu Trainingsdaten

Medizin Entdektungen
Individualmedizin

Was ist Graph Attention?

gewichtet (weight) die Knoten (nods) in einem Graphen

Molekularbiologie
Strukturerkennung

Was sind Redidual Networks (ResNets)?

nutzt Abkürzungsverbindungen um das Problem von verblassenden Gradienten in neuronalen Netzwerken entgegenzuwirken

Medizinische Bildanalyse

Was ist Ada Boost?

verbindet mehrere schwache Klassifier um einen straken Klassifier zu erzeugen

Was ist Seq2Vec?

Sequrnzdatenverarbeitung

Sequenz in fixed length Vektor Representation konvertieren

Was sind Variational Autoencoder?

genrealtive Modelle
kann latente Representationen lernen

Anomalie Erkennung
Dimensionsreduktion

Wie lernt ein Transformer?

nutzt nur Attention Mechanism
- Self-Attention (Intra-Attention)
- Multi-Head Attention

=> Soll Interkationen von verschiedenen Elementen einer Sequenz modelieren

erkennt Abhänigkeit zwischen Elementen unabhängig ihrer Position in der Sequenz
determiniert Ausmaß zu welchem Maß verschiedenen Teilen des Inputs Aufmerksamkeit geschenkt wird

Was ist der Self-Afftention Mechanismus und wie funktuioniert er?

kreiiert Representation von einem Element welcher den Einfluss aller anderen Elemente der Sequenz auf dieses Elemtent festhällt
berechnen eines Werts für jedes Elementpaar -> Sortmax um die Weights zu erhalten -> für weighted sum

=> erlaubt jedem Element mit jedem anderen Element zu interagieren

=> ganzheitliches Bild der Sequenz

Was ist der multi Head Attention Mechanismus und wie funktioniert er?

mehrere Self-Attention Mechanismen in Paralell
jeder Head erhält einen Teil des Input Vektors
- rechnent unabhänig von den anderen eine gelernte linerare Transformation auf den Input
- Outputs verkettet und Linerar transformiert

=> ermöglicht dem Modell verschiedene Arten von Beziehungen und Abhängigkeiten festzuhalten

Was ist Positional Encoding und wie funktioniert es?

Modell selbst hat keine Vorstellung von Reihenfolge der Input-Elemente (Permutation-invariant)
bringt Information an welcher Position sich ein Element befindet
werden zu den Input Enbeddings hinzugefügt

=> ermöglicht Modell Reihenfolge des Textes zu lernen/nutzen -> wichtig für strukturierte Daten wie Text

häufig Sinus und Cosinus Funktionen in verschiedenen Fequenzen genutzt

Welche Vorteile bietet der Transformer gegenüber anderen Modellen?

kann weit entfernte Abhängikeiten nutzen, mit ihnen umgehen
da alle Elemente gleichzeitig miteinander interagieren, muss nicht alle Information in einen fixed hidden sate gequentscht werden -> führte häufig zu Informationsverlust

Welche Komponenten des Self-Attention-Mechanismus gibt es?

Query (q)
- Element für das die kontextabhänigen Represtentationen berechnet werden sollen
Key (k)
- Element gegen das Query berechnet wird um Weights zu bestimmen
Value (V)
- das Element das durch den Attention Score gewichtet wird um finalen Output zu generieren

=> Stammen alle von den Inputrepresentationen -> entstehen durch Multiplikation der inputsequenz mit gelernten Weight Matritzen

Self-Attention berechent Attention Score für Query-Key Paar -> nimmt Dot-Produkt und wendet Softmax an (alle weights zwischen 0 und 1 -> ergeben in Summe 1)

=>Normalisiertes Maß der Attention/Wichtigkeit der jedem Element zugewiesen wird

berechnet weighted sums der Value Werte -> weights durch Attention scores gegeben

=> Input für den nächsten Layer

=> erlaubt wahrnehmen welche Teile von Informationen wichtig sind und welche Elemente encodet werden

Was ist der BLEU Score?

= Bilingual Evaluation Understudy

Messverfahren für automatische Bewetung von maschinell übersetzten Texten
Misst Ähnlichkeit des maschinell übersetzten Text mit Reihe von Referenzübersetzungen hoher Qualität
zwischen 0 und 1

=> BLEU Werte über verschiedene Texte und Sprachen können nicht miteinander verglichen werden

Was ist ein Classifier?

Typ von Maschienlern Algorythmus der Klassenlabel zu Inputdaten zuweist
werden mit gelabelten Daten trainiert
z.B. relevant in Bilderkennung

Wie funktioniert die Softmax Funktion?

Vektor mit Zahlen in Vekor mit Wahrscheinlichkeiten umwandeln
- Dient NN als Aktivierungsfunktion der einzelnen Schichten
Wird auf weighted sums aus Output des Neurons angewandt
Ist nicht linerar -> so können auch nicht linerare Zusammenhänge erkannt werden
wird genutzt wenn Neuron binäre Ausgabewerte hat (zwischen 0 und 1)
Vekor als Input

=> gewährleistet immer das die Ausgabewerte in Summe gleich 1 sind

Erkläre Query genauer

representiert Element von Interesse
abgeleitet von der aktuellen Postition in der Inputsequenz oder aus vorherigem Layer

=>Ähnlichkeit oder Relevanz zwischen dem Kontext und anderen Elemtenten in der Inputsequenz zu determinieren

Erkläre den Key Vektor genau-

Projektion der Inputdaten und ist mit Element der Inputsequenz assoziiert

=> wird genutzt um zu berechnen wie wichtig jedes Element der Input Sequenz für das Query ist

=> wird als Skalarprodukt (q * k) berechnet

Erkäre den Value Vektor genau.

auch Projektion der Inputdaten und mit jedem Element assoziiert
erhällt eigentlichen Informationen die genutzt werden um Position der querys zu updaten

=> sind gewichted bei den Attention Scores (= q & k Interaktion) um zu determinieren wie viel jedes Element zum Output beiträgt

=> höhere Attention Scores bedeutet Value Vektoren sind wichtiger für den Output

Wie spielen Key, Query, Value Vektoren zusammen?

Query	Key	Value
spezifisches englisches Wort in der Sequenz	Representation aller englischer Wörter in der Sequenz	die dazugeörigen französichen Übersetzungen
apple	cat, apple, tree	chat, pomme, arbre

Wie werden die Attention Scores berechnet?

Skalarprodukt von Query (Apple) und Key (Chat, Apple, Tree) bestimmt wie wichtig jedes englische Wort im Satz zum englischen Wort “apple” ist
=> höhere Skalarprodukte = höhere Wichtigkeit
Diese Scores werden genutzt um korrespondierende französiche Wörter zu gewichten
=> so kann Transformer auf Informationen aus der ganzen Inputsequenz zugreifen
- basierend auf Relevanz des Querys zu jedem Key -> akkurate Übersetzungen und abbilden von komplexen Beziehungen

=> Attention scores -> Softmax -> Attention weigths

=> Attention weights + value Vekoren = Weighted sum

=> finaler Output für den Query Token

=> erlaubt Modell sich auf relevante Teile der Inputsequenz zu konzentrieren

Abhänigikeiten zwischen Tokens erkennen
Representationen die Kontextbewusst sind erstellen

Welche Probleme bieten genomische Daten für die Anwendung von Transformern?

Komplexe Struktur dieser Daten
- Genexpressionsdaten typischerweise als hochdimensionale Vektoren representiert
Limitierte Verfügbarkeit von gelabelten Daten
- oft zu kleiner Datensatz um DLM zu trainieren
- Modelle mit großem Bias
Genomisch und Epigenomische Daten sind oft sehr heterogen
- verschiedene Datentypen
  - Sequenzierungsdaten
  - Genexpressionsdaten
  - Histonmodifikationsdaten

Welche Vorteile hat der Attention-Mechanismus über CNN/RNNs?

Keine sequenzielle Verarbeitung (RNNs)
RNN) bearbeiten Daten Schritt für Schritt -> benötigen vorherige Zustände
ATT) alle Positionen gleichzeitig betrauchten -> Prozess paralelisieren
langfristige Abhängikeiten lernen
RNN) frühere Informationen gehen verloren -> kleine Gradieneten wegen Backpropagation
ATT) kann direkt auf Tokens der Eingabe zugreifen
Kein festes Kontestfesnster (CNN)
CNN) benutzen feste Kernelgröße -> beschränkt lokale Muster zu erkennen
ATT) kann sich dynamisch auf relevante Bereiche fokusieren unabhängig von der Entfernung
Adaptiver Fokus (CNN/RNN)
CNN) Gewichtung teilweise für ganzen Input gleich, oder festgelegt
ATT) dynamisch entscheiden welche Teile des Inputs wichtig sind
Können auf riesigen Datensatz trainiert werden