Wieso sollte man Transformer und Attentionmechanismen in der Biologie nutzen?
haben überlegene Perfornance beim Umgang mit komplexen genomischen Daten bewiesen
genomische Daten -> Sprache der Biologie
Tools die mit Sprachdaten umgehen können -> versteckte Muster in Sequenzen finden
Welche Besonderheiten weißt der Attentionmechanismus auf und wie funktioniert dieser?
Achtet beim generieren von Output auf verschiedene Teile des Inputs
Fähigkeit verschiedene Regionen und Beziehungen während des Interpretationsprozesses dynamisch zu betrachten
=> berechnet weighted sums von Input Features
Weights (Attention scores) sind dynamisch durch Inputdaten bestimmt
hilft mehr auf relevante Feautres zu achten
=> Erlaubt das parallele bearbeiten von Input
schneller und effizienter
Was sind die Besonderheiten eines Transformermodells und wie ist dieser allgemein aufgebaut?
besteht aus Stack von identischen Unterschichten
Multi-head Self-Attention
Positionell verbundene feed forward Netzwerke
=> kann Abhänigkeiten zwischen Input und Otuput unabhängig ihrer Distanz erkennen
Besonderheiten:
Weit entfernete Abhängikeiten zwischen genoomischen Positionen zu erkennen
mehrere relevante Regionen gleichzeitig zu erkennen
Adaptiv auf auffällige Features zu fokusieren
=> sehr geeignet für genomische Daten
Was sind konventionelle deep learning Architekturen?
Neuronale Netzwerke mit mehreren Layern -> fähig komplexe Muster in größeren Datensätzen zu erkennen
Multilayer Perceptron (MLP)
Convolutional Neural Network (CNN)
Recurrent Neural Network (RNN)
Generative advrsarial Network (GAN)
Graph Attention
Reduial Networks (ResNets)
Ada Boost
Seq2Vec
Variational Autoencoder (VAE)
Was ist ein Multi Layer Perceptron (MLP)?
einfachste Form eines Deep learning Models
Input Layer, 1 oder mehr Hidden LAyer, Output Layer
=> für Datensätze bei denen sich Input und Output nicht linearen Zusammenhang teilen
! nicht gut mit räumichen oder temporären Daten
Was ist ein Convoluteonal Neural Network (CNN)?
gut für räumlichen Input wie Bilder
kann druch gefaltete Layer gut räumliche Abhängigkeiten erkennen
Aufbau:
1 oder mehr Convolutional Layer
gefolgt von pooling Layer
für medizinische Bildanalyse
Gewebetypisierung
Was ist ein Recurrant Neural Network (RNN)?
Verbesserte Vatiante = long short term Memory (LSTM)
Umgang mit aufeinander folgenden Daten in Memoryartigem Mechanismus
erlaubt von vorangegangenen Inputs der Sequent zu lernen
Proteinvorhersage
Verständins von genetischen Sequenzen
Was sind Generative adversarial networks (GANs)?
besteht aus 2 neuronalen Netzwerken (Generator, Diskriminator) die konkurieren
ermöglicht generieren von neuen syntetischen Daten ähnlich zu Trainingsdaten
Medizin Entdektungen
Individualmedizin
Was ist Graph Attention?
gewichtet (weight) die Knoten (nods) in einem Graphen
Molekularbiologie
Strukturerkennung
Was sind Redidual Networks (ResNets)?
nutzt Abkürzungsverbindungen um das Problem von verblassenden Gradienten in neuronalen Netzwerken entgegenzuwirken
Medizinische Bildanalyse
Was ist Ada Boost?
verbindet mehrere schwache Klassifier um einen straken Klassifier zu erzeugen
Was ist Seq2Vec?
Sequrnzdatenverarbeitung
Sequenz in fixed length Vektor Representation konvertieren
Was sind Variational Autoencoder?
genrealtive Modelle
kann latente Representationen lernen
Anomalie Erkennung
Dimensionsreduktion
Wie lernt ein Transformer?
nutzt nur Attention Mechanism
Self-Attention (Intra-Attention)
Multi-Head Attention
=> Soll Interkationen von verschiedenen Elementen einer Sequenz modelieren
erkennt Abhänigkeit zwischen Elementen unabhängig ihrer Position in der Sequenz
determiniert Ausmaß zu welchem Maß verschiedenen Teilen des Inputs Aufmerksamkeit geschenkt wird
Was ist der Self-Afftention Mechanismus und wie funktuioniert er?
kreiiert Representation von einem Element welcher den Einfluss aller anderen Elemente der Sequenz auf dieses Elemtent festhällt
berechnen eines Werts für jedes Elementpaar -> Sortmax um die Weights zu erhalten -> für weighted sum
=> erlaubt jedem Element mit jedem anderen Element zu interagieren
=> ganzheitliches Bild der Sequenz
Was ist der multi Head Attention Mechanismus und wie funktioniert er?
mehrere Self-Attention Mechanismen in Paralell
jeder Head erhält einen Teil des Input Vektors
rechnent unabhänig von den anderen eine gelernte linerare Transformation auf den Input
Outputs verkettet und Linerar transformiert
=> ermöglicht dem Modell verschiedene Arten von Beziehungen und Abhängigkeiten festzuhalten
Was ist Positional Encoding und wie funktioniert es?
Modell selbst hat keine Vorstellung von Reihenfolge der Input-Elemente (Permutation-invariant)
bringt Information an welcher Position sich ein Element befindet
werden zu den Input Enbeddings hinzugefügt
=> ermöglicht Modell Reihenfolge des Textes zu lernen/nutzen -> wichtig für strukturierte Daten wie Text
häufig Sinus und Cosinus Funktionen in verschiedenen Fequenzen genutzt
Welche Vorteile bietet der Transformer gegenüber anderen Modellen?
kann weit entfernte Abhängikeiten nutzen, mit ihnen umgehen
da alle Elemente gleichzeitig miteinander interagieren, muss nicht alle Information in einen fixed hidden sate gequentscht werden -> führte häufig zu Informationsverlust
Welche Komponenten des Self-Attention-Mechanismus gibt es?
Query (q)
Element für das die kontextabhänigen Represtentationen berechnet werden sollen
Key (k)
Element gegen das Query berechnet wird um Weights zu bestimmen
Value (V)
das Element das durch den Attention Score gewichtet wird um finalen Output zu generieren
=> Stammen alle von den Inputrepresentationen -> entstehen durch Multiplikation der inputsequenz mit gelernten Weight Matritzen
Self-Attention berechent Attention Score für Query-Key Paar -> nimmt Dot-Produkt und wendet Softmax an (alle weights zwischen 0 und 1 -> ergeben in Summe 1)
=>Normalisiertes Maß der Attention/Wichtigkeit der jedem Element zugewiesen wird
berechnet weighted sums der Value Werte -> weights durch Attention scores gegeben
=> Input für den nächsten Layer
=> erlaubt wahrnehmen welche Teile von Informationen wichtig sind und welche Elemente encodet werden
Was ist der BLEU Score?
= Bilingual Evaluation Understudy
Messverfahren für automatische Bewetung von maschinell übersetzten Texten
Misst Ähnlichkeit des maschinell übersetzten Text mit Reihe von Referenzübersetzungen hoher Qualität
zwischen 0 und 1
=> BLEU Werte über verschiedene Texte und Sprachen können nicht miteinander verglichen werden
Was ist ein Classifier?
Typ von Maschienlern Algorythmus der Klassenlabel zu Inputdaten zuweist
werden mit gelabelten Daten trainiert
z.B. relevant in Bilderkennung
Wie funktioniert die Softmax Funktion?
Vektor mit Zahlen in Vekor mit Wahrscheinlichkeiten umwandeln
Dient NN als Aktivierungsfunktion der einzelnen Schichten
Wird auf weighted sums aus Output des Neurons angewandt
Ist nicht linerar -> so können auch nicht linerare Zusammenhänge erkannt werden
wird genutzt wenn Neuron binäre Ausgabewerte hat (zwischen 0 und 1)
Vekor als Input
=> gewährleistet immer das die Ausgabewerte in Summe gleich 1 sind
Erkläre Query genauer
representiert Element von Interesse
abgeleitet von der aktuellen Postition in der Inputsequenz oder aus vorherigem Layer
=>Ähnlichkeit oder Relevanz zwischen dem Kontext und anderen Elemtenten in der Inputsequenz zu determinieren
Erkläre den Key Vektor genau-
Projektion der Inputdaten und ist mit Element der Inputsequenz assoziiert
=> wird genutzt um zu berechnen wie wichtig jedes Element der Input Sequenz für das Query ist
=> wird als Skalarprodukt (q * k) berechnet
Erkäre den Value Vektor genau.
auch Projektion der Inputdaten und mit jedem Element assoziiert
erhällt eigentlichen Informationen die genutzt werden um Position der querys zu updaten
=> sind gewichted bei den Attention Scores (= q & k Interaktion) um zu determinieren wie viel jedes Element zum Output beiträgt
=> höhere Attention Scores bedeutet Value Vektoren sind wichtiger für den Output
Wie spielen Key, Query, Value Vektoren zusammen?
Query
Key
Value
spezifisches englisches Wort in der Sequenz
Representation aller englischer Wörter in der Sequenz
die dazugeörigen französichen Übersetzungen
apple
cat, apple, tree
chat, pomme, arbre
Wie werden die Attention Scores berechnet?
Skalarprodukt von Query (Apple) und Key (Chat, Apple, Tree) bestimmt wie wichtig jedes englische Wort im Satz zum englischen Wort “apple” ist
=> höhere Skalarprodukte = höhere Wichtigkeit
Diese Scores werden genutzt um korrespondierende französiche Wörter zu gewichten
=> so kann Transformer auf Informationen aus der ganzen Inputsequenz zugreifen
basierend auf Relevanz des Querys zu jedem Key -> akkurate Übersetzungen und abbilden von komplexen Beziehungen
=> Attention scores -> Softmax -> Attention weigths
=> Attention weights + value Vekoren = Weighted sum
=> finaler Output für den Query Token
=> erlaubt Modell sich auf relevante Teile der Inputsequenz zu konzentrieren
Abhänigikeiten zwischen Tokens erkennen
Representationen die Kontextbewusst sind erstellen
Welche Probleme bieten genomische Daten für die Anwendung von Transformern?
Komplexe Struktur dieser Daten
Genexpressionsdaten typischerweise als hochdimensionale Vektoren representiert
Limitierte Verfügbarkeit von gelabelten Daten
oft zu kleiner Datensatz um DLM zu trainieren
Modelle mit großem Bias
Genomisch und Epigenomische Daten sind oft sehr heterogen
verschiedene Datentypen
Sequenzierungsdaten
Genexpressionsdaten
Histonmodifikationsdaten
Welche Vorteile hat der Attention-Mechanismus über CNN/RNNs?
Keine sequenzielle Verarbeitung (RNNs)
RNN) bearbeiten Daten Schritt für Schritt -> benötigen vorherige Zustände
ATT) alle Positionen gleichzeitig betrauchten -> Prozess paralelisieren
langfristige Abhängikeiten lernen
RNN) frühere Informationen gehen verloren -> kleine Gradieneten wegen Backpropagation
ATT) kann direkt auf Tokens der Eingabe zugreifen
Kein festes Kontestfesnster (CNN)
CNN) benutzen feste Kernelgröße -> beschränkt lokale Muster zu erkennen
ATT) kann sich dynamisch auf relevante Bereiche fokusieren unabhängig von der Entfernung
Adaptiver Fokus (CNN/RNN)
CNN) Gewichtung teilweise für ganzen Input gleich, oder festgelegt
ATT) dynamisch entscheiden welche Teile des Inputs wichtig sind
Können auf riesigen Datensatz trainiert werden
Beispiele für die Nutzung von transformer basierten Modellen in der Biologie.
Sequenz und Site Vorhersagen
miRNA Vorhersagen
RNA Bindeproteininteraktionen
dynamische und konditionsabhänige Natur von DNA Strukturen
Attention Mechanismus der spezifische RBP-Nukleotide identifiziert
Promoter Erkennung
Transkriptionsfaktorbindestellenerkennung
=> erfassen von informativen Musten und weitreichende Abhängigkeiten in genomischen Sequenzen
Genexpression und Phenotyp Vorhersagen.
Vorhersagen von Genexpressionen
anhand von Chromosomenmodifikationen
andere metagenomische Daten
Vorhersagen von spezifischen Phänotypen
Vorhersagen von RNA Splicestellen
non coding und circ RNA
trennen von circRNA-RBP-Bindestellen
extrahiert lokale und globale kontextuale Informationen von circulären RNA Sequenzen
Sequenzen als Wörter und Mapped Subsequenzen in zugehörige Vektoren
Transkriptionsprozesse
Transkriptionsfaktorbindestellenvorhersagen und und Charakterisirung
Prokariotische Genomannotiation
Viele Attention Heads
Identifizieren von Transkriptionsfaktoren
Bindestelle und Konsensussequenz charakterisieren
verstehen von bekannten und neuen Elementen in Transkriptionsinitiation
MultiOmics und Modal Tasks
Krankheitsvorhersage
Vorhersagen von Brustkrebs
Integrieren von Kopienzahlveränderungen und Genexpressionsdaten
Genvorhersagemethode
Identifizieren von Eierstockkrebs
Parkinsonvorhersagen
Blutzirkulationsmuster und Diffusionsmuster im Gehirn
CRISPR Effizienz und Ergebnisvorhersagen
Vorhersagen von CRISPR Cas9 Editierungsergebnissen
Positional Encodings, Embeddings, Attention
Erfast semantische Zusammenhänge
Single Guide RNA Knockout Effizienz
Genregulationsnetzwerke
Transkriptionsfaktor kooperationen erkennen
Itegrierte Gradienten um Attributionsscors für Motive in Sequenzen zu berechnen
Veränderungen in den Scores nach Motiv Mutation suggerieren potentielle Interaktion
Einzelzell RNA-seq Analyse
Genzuschreibung und Zell Clustering Analyse
Krankheitsprognosen
Prognose von low-grade Glioma (Hirntumore)
Identifizieren von HILS1 als signifikantestes Gen für Prognose
Gen Attention Layer für jeden Datentypen (mRNA, miRNA)
Identifikation von Krankheitsbetroffenen Genen
Genexpression basierte Klassifikation
Brustkrebs Subtyp Klassifikation
Attention Mechanismus um jedem Patient individuelle Biomoleulare Scores zuzuornden
Anit-Krebs Komponenten Sensitivität
Proteomics
Identifiziert N-terminale Sorting Signale in Peptiden
Zeigt einzigartige Verkettungsmuster in verschiedenen Proteingruppen und Zielpeptiden
Vorhersage von Medikamentenwechselwirkungen
Modell das Medikamentenwechselwirkungen vorhersagt
Nutzt vershiedene Ähnlichkeitswerte von Medikamenteneigenschaften
Vorhersage Medikamentenwechselwirkungen Modell 2
durch Medikamenteninduzierte Genexpression
Vorhersagen syergetischer Medikamenteneffekte
zeigte neue Pathways die mit assoziierten Kombinationen in Verbindung stehen
Last changed2 months ago