Steps der Datenanalyse
Data cleaning
bring data into the right shape
label columns/rows
(transform data)
remove missing values / weird values
data exploration
descriptive statistics
graphical representation
data reduction
dimensionality reduction
find important features
data modeling
find relationships between variables
build predictive models (“can I explain cholesterol level y age?”)
Was sind die folgenden Skalen? (Nominalskaliert)
Nominalskaliert:
Mögliche Auprägungen können unterschieden werden, weisen aber keine natürliche Rangfolge auf
Messbar durch Beschreibung von Kategorien -> jede Untersuchung wird genau einer Kategorie zugeordnet
Namen, Geschlecht, Postleitzahlen, Religionszugehörigkeit, Nummern von Buslinien
Was sind die folgenden Skalen? (ordinalskaliert)
Ordinalskaliert:
Sortiert Variablen mit Ausprägungen zwischen denen Rangordnung besteht
Nominal-Informationen über Rehung der Werte können gruppiert und ihrer Größe nach geordnet werden
Einstufungen (gut, mittel, schlecht), Schulnoten, Dienstrang beim Militär
Different Data Types
Was sind die folgenden Skalen? ( intervallskaliert)
Intervallskaliert:
Ausprägungen lassen sich quantitativ durch Zahlen darstellen
Rangunterschiede und Abstand können zwischen Werten gemessen werden
Temperatur (Celsius), Jahreszahlen mit Geburten, Zeitpunkte (Startzeit), Intelligenzquotient
Was sind die folgenden Skalen? (verh ̈altnisskaliert)
Verhältnisskaliert:
Wie Intervallskala nur existiert absoluter Nullpunkt
Multiplikation und Division sind sinnvoll -> Verhältnisse
Temperatur (Kelvin), Zeitdauer, Preis, Geschwindigkeit, Prozentsätze, Entfernung
Was sind diskrete und stetige Merkmale?
Diskret: abzählbar viele Ausprägungen
Schulnoten, Jahre, Primzahlen, Richterskala, Bewertungen,
Stetig: Alles was man mit zunehmender Genauigkeit messen kann
Wasserspiegel, Gewicht, Anteile, Produktion
Visualization for single variable plots
plot counts
Visualization for two variable plots
plot relationship
Deskriptive Statistik
Die deskriptive Statistik hat zum Ziel, empirische Daten (z. B. Ergebnisse aus Experimenten) durch Tabellen, Kennzahlen und Grafiken übersichtlich darzustellen und zu ordnen.
Die deskriptive Statistik macht keine Aussagen zu einer über die untersuchten Fälle hinausgehenden Grundgesamtheit und ermöglicht keine Überprüfung von Hypothesen.
Die deskriptive Statistik verwendet keine stochastischen Modelle (Grundlage der induktiven Statistik), so dass die getroffenen Aussagen nicht durch Fehlerwahrscheinlichkeiten abgesichert sind.
Descriptive statistics provides a description of the sample dataset, without making any extrapolation to the more general population!
Mean und Median bei verschiedenen Verteilungen
p- Quantile
value such that p% of the values in the data set are smaller
distribution of quantile value gives an indication about the shape of the distribution
QQ-Plots
= Quantile-Quantile Plots
Die p-Quantile von zwei unterschiedlichen Distributions werden gegeneinander geplotted (zb. Größenverteilung Mann und Frau)
Ist der QQ-Plot eine gerade Linie, haben beide Distributionen eine ähnliche Form
Measuring data spread (Fehler)
Sample Variance
Standard deviation
Interquartile Range (IQR): difference between the 75% and 25% percentile
Median average deviation (MAD): median deviation of the data points from the median
IQR and MAD are less sensitive to outliers than standard deviation!
Clustering
Groups together measurements based on similarity or dissimilarity
Identify classes
Identify patterns in the data (biologically relevant groups / batch effects)
The distance metric matters
Scaling matters
Clustering 2 Methoden
Hierarchical clustering: generate hierarchy of clusters from 1 cluster to n clusters
Partitioning: divide data in k groups using some reallocation algorithm
E.g. k-means, Self organizing map (SOM)
k means clustering Ablauf
Step 1: define k random centers (here: k=2)
-> assign each point to the closest one of these centers
Step 2: determine the center of gravity of these 2 groups of objects
Step 3: assign again each object to the updated centers
Step 4: update the centers according to the new assignment, and start over
When to stop:
when no object changes its cluster assignment anymore or:
when a certain number of max iterations are reached
Verify the consistency of the clustering obtained using several random conditions
identical = very strong cluster structure
fluctuating = no clear cluster structure
k means clustering properties
Needs to specify the numbers of clusters in advance
Difficult
Try different k, check cluster quality
Compare within-cluster similarity and between-cluster similarity
Euclidean or correlation distance measure
Random starting conditions: different iterations give different solutions (local optima)
Choosing k in kmeans clustering (why and approaches)
Fundamental idea
in a good clustering, the distance within clusters should be much
smaller than the distance between clusters
Several methods implement this principle
elbow method
silhouette method
(many other methods exist to define optimal cluster number...)
Elbow Method
Führen Sie das k-means-Clustering für verschiedene Anzahlen von Clustern durch, z.B. von 1 bis 10.
Für jede Anzahl von Clustern berechnen Sie die Intra-Cluster-Varianz, z.B. durch Summieren der Quadratdistanzen zwischen den Objekten und ihren jeweiligen Clusterzentren. Daraus wird dann jeweils der Durchschnitt gebildet.
Plotten Sie die Anzahl der Cluster gegen die Intra-Cluster-Varianz.
Identifizieren Sie den Punkt im Diagramm, an dem sich der Abfall der Varianz zu verlangsamen beginnt und wählen Sie diese Anzahl von Clustern als die optimale Anzahl aus. Ab hier verbessert sich die Intra-Cluster-Varianz nicht mehr so stark mit Erhöhung der Anzahl an Clustern.
Silhouette Method
Führen Sie das k-means-Clustering für verschiedene Anzahlen von Clustern durch, z.B. von 2 bis 10.
Berechnen Sie die Silhouettenbreite für jedes Objekt in jedem Cluster.
Zunächst wird die durchschnittliche Distanz des Objekts zu allen anderen Objekten im selben Cluster berechnet -> a_i
Dann wird die durchschnittliche Distanz des Objekts zu allen Objekten im nächsten benachbarten Cluster berechnet -> b_i
Die Silhouettenbreite für das Objekt i wird berechnet, indem der Unterschied zwischen b_i und a_i durch das Maximum von b_i und a_i geteilt wird:
s_i = (b_i - a_i) / max(b_i, a_i)
s_i ~ 1 object very well clustered
s_i ~ 0 ambigous object
s_i < 0 wrongly assigned
Berechnen Sie die durchschnittliche Silhouettenbreite für jedes Clustering-Verfahren.
Plotten Sie die durchschnittliche Silhouettenbreite gegen die Anzahl der Cluster.
Identifizieren Sie den Punkt im Diagramm mit der höchsten durchschnittlichen Silhouettenbreite und wählen Sie diese Anzahl von Clustern als die optimale Anzahl aus.
Hierarchical clustering
Bottom-up agglomeration: group iteratively objects from most similars to less similar groups
each object starts in own cluster
in subsequent steps, the nearest clusters are merged
Divisive: tree-like representation of the relationships/distances between objects
all objects start in one cluster
at subsequent steps, this cluster is split at greatest distance
Hierarchical clustering - Neighbor-joining method
Step 1 : find closest pair (x,y)
Step 2 : join objects to form a cluster (x,y)
Step 3 : replace x and y in the distance matrix by cluster (x,y) and recompute all distances
Step 4 : Repeat from Step1
Stop when all objects have been merged!
Linkage methods for the distance between clusters
single linkage
d(A,B) = minimal distance between all elements of A and B
Single linkage suffers from chaining:
In order to merge two groups, only need one pair of points to be close, irrespective of all others.
clusters can be too spread out, and not compact enough.
complete linkage
d(A,B) = maximal distance between all elements of A and B
Complete linkage avoids chaining, but suffers from crowding.
Because its score is based on the worst-case dissimilarity between pairs, a point can be closer to points in other clusters than to points in its own cluster.
Clusters are compact, but not far enough apart.
average linkage (UPGMA)
d(A,B) = average of all pairwise distances between elements of A and B
Properties of hierarchical clustering
No need to specify the numbers of clusters in advance
Can use any similarity/distance measure
Hierarchical nature very intuitive (in some domains)
• E.g. taxonomies
Does not scale well: time complexity at least O(n2)
Interpretation of results is subjective
• Where to cut?
Heuristic: local optima might be a problem
Heatmap
Visual interpretation of clustering results
Many flavors of color scaling (counts, log counts, z scores, ...)
Grouping can be visualized in dendrograms
Branch length is proportional to the distance of clusters that got merged at this step
Note: groups can be rotated around each junction; be careful when interpreting the linear order
k means vs hierarchical clustering
K-means
Pro:
Low memory usage
O(n) compute time
Con:
Results are sensitive to random initialization
Need to predefine number of clusters
Hierarchical
Deterministic
Dendrogram shows clustering at different levels
Computational intensive (O(n2) space; at least O(n2log(n)) in time);
• not feasible for very large datasets
Interpretation not trivial (where to cut)
Reducing dimensions
Dataset has a very high dimensionality (e.g. number of genes)
Need to reduce this large number of dimensions to a smaller number of relevant variables
Relevant variables = variables that carry most of the information ( or variance) of a dataset
Goal: identify directions in the data corresponding to biological effects
Principal Component Analysis
PCA wird typischerweise angewendet, um die inhärente Struktur in den Daten zu extrahieren, indem die Daten auf die wichtigsten Komponenten oder Faktoren projiziert werden. Diese Komponenten oder Faktoren sind eine lineare Kombination der ursprünglichen Variablen und werden als Hauptkomponenten bezeichnet.
Die Hauptkomponenten sind so ausgewählt, dass die erste Komponente (first principal component) die größte mögliche Varianz in den Daten erklärt, die zweite Komponente erklärt die nächstgrößte Varianz, und so weiter. Die Anzahl der ausgewählten Hauptkomponenten hängt davon ab, wie viel Varianz in den Daten erhalten bleiben soll und wie viel Varianz als Rauschen betrachtet wird.
Vor der PCA sollte das Datenset dimensionslos gemacht werden mit einer z-Transformation.
Durchführung einer PCA
Zunächst werden die Daten standardisiert, indem von jedem Merkmal der Mittelwert abgezogen und durch die Standardabweichung geteilt wird.
Dann wird die Kovarianzmatrix der standardisierten Daten berechnet. Die Kovarianzmatrix gibt an, wie stark die einzelnen Variablen miteinander korrelieren.
Die Eigenwerte und Eigenvektoren der Kovarianzmatrix werden berechnet. Die Eigenwerte geben an, wie viel Varianz von jeder Hauptkomponente erklärt wird, und die Eigenvektoren geben an, welche linearen Kombinationen der ursprünglichen Variablen die Hauptkomponenten bilden.
Die Hauptkomponenten werden berechnet, indem die Daten auf die Eigenvektoren der Kovarianzmatrix projiziert werden. Die erste Hauptkomponente ist die lineare Kombination, die die größte Varianz in den Daten erklärt, die zweite Hauptkomponente ist die lineare Kombination, die die verbleibende Varianz erklärt, und so weiter.
Schließlich werden die reduzierten Daten in einem neuen Koordinatensystem dargestellt, das aus den Hauptkomponenten als Achsen besteht.
Vorteile PCA
linear multivariate statistical analysis
understand underlying data structures
identify bias, experimental errors, batch effects
visualize the samples in a smaller subspace
-> dimension reduction
visualize the relationship between variables
-> correlation analysis
Proportion variance (PCA)
Dimensionality reduction techniques such as PCA work well when the data is essentially low dimensional
-> groups of highly correlated features
We have p features, but the data (or most of it) can be described with just k ≪ p linear combinations of them
Example: data on children
height, weight and age -> highly correlated
PCA will be able to identify a linear combination of these features that we’ll roughly be able to interpret as the child’s size
To understand how well PCA is doing, we look at the proportion of variance explained (PVE) by each principal component.
Single-Value-Decomposition
Die Single-Value-Decomposition (SVD) ist ein Verfahren, das eine Matrix A in drei Matrizen U, Σ und V^T aufteilt, wobei U und V orthonormale Matrizen sind und Σ eine Diagonalmatrix ist. Die Diagonaleinträge von Σ werden als Singulärwerte bezeichnet und geben Auskunft über die Größe und Bedeutung der Beiträge der einzelnen Basisvektoren.
Das Verfahren zur Berechnung der SVD besteht aus mehreren Schritten:
Berechne die Matrix A^T * A
Berechne die Eigenvektoren und Eigenwerte von A^T * A
Ordne die Eigenwerte in absteigender Reihenfolge an und erstelle die Matrix Σ, indem die Wurzeln der Eigenwerte auf der Diagonalen platziert werden.
Berechne die Singulärvektoren, indem man die Eigenvektoren von A^T * A auswählt, die zu den höchsten Eigenwerten gehören. Diese bilden die Spalten von V.
Berechne die Matrix U, indem man die Singulärvektoren mit der Matrix A multipliziert und diese dann normiert.
Die Berechnung von SVD ist eine rechenaufwendige Operation, insbesondere für große Matrizen. In der Praxis werden oft numerische Methoden wie das Lanczos-Verfahren oder das QR-Verfahren verwendet, um eine effizientere Berechnung der SVD zu ermöglichen.
t-SNE
t-distributed Stochastic Neighborhood Embedding
Goal: take a set of points in high-dimensional space and find a faithful representation of them in lower-dimensional space (usually 2D plane)
Non-linear dimensionality reduction technique: distances are only locally meaningful
man kann bei großen Distanzen nicht interpretieren, ob Zellen wirklich sehr unterschiedlich sind
adapts to the underlying data: different transformations in different regions
Im Gegensatz zu anderen Techniken der Dimensionsreduktion, die lineare Transformationen verwenden, verwendet t-SNE eine nicht-lineare Transformation, um ähnliche Datenpunkte in der niedrigeren Dimension nahe beieinander zu platzieren und unähnliche Datenpunkte weiter auseinander.
t-SNE berechnet zuerst Wahrscheinlichkeitsverteilungen, die angeben, wie wahrscheinlich es ist, dass ein Datenpunkt in einer bestimmten Distanz zu einem anderen Datenpunkt erscheint. Dann wird die Verteilung in der niedrigeren Dimension berechnet, um die Datenpunkte zu visualisieren.
t-SNE ist besonders gut geeignet, um komplexe Strukturen in den Daten zu identifizieren und sie in einer leicht verständlichen Form darzustellen.
Es ist jedoch wichtig zu beachten, dass t-SNE eine nicht-deterministische Technik ist, was bedeutet, dass jeder Lauf leicht unterschiedliche Ergebnisse liefern kann.
UMAP
UMAP nutzt ebenfalls eine nicht-lineare Transformation, aber im Gegensatz zu t-SNE, das auf Wahrscheinlichkeitsverteilungen basiert, verwendet UMAP topologische Strukturen.
UMAP erstellt ein Modell der Topologie der Daten und versucht, diese Topologie in der niedrigeren Dimension beizubehalten. Dies kann helfen, komplexe Strukturen in den Daten zu erhalten, insbesondere wenn die Daten hohe Dimensionen oder Rauschen enthalten.
Ein weiterer wichtiger Unterschied zwischen t-SNE und UMAP ist, dass UMAP eine skalierbare Technik ist, die auch auf sehr großen Datensätzen angewendet werden kann. Im Gegensatz dazu ist t-SNE eher auf kleinere Datensätze beschränkt.
Kumulative Verteilung
mathematische Funktion, die die Wahrscheinlichkeit beschreibt, dass eine Zufallsvariable einen Wert annimmt, der kleiner oder gleich einem bestimmten Wert ist
Die CDF (cumulative distribution function) wird als Integral der PDF (probability distribution function) von negativer Unendlichkeit bis zum angegebenen Wert definiert. Alternativ kann sie auch durch Summieren der Wahrscheinlichkeiten aller Werte, die kleiner oder gleich dem angegebenen Wert sind, berechnet werden.
Binomiale Verteilung
Wahrscheinlichkeitsverteilung, die angibt, wie wahrscheinlich es ist, dass eine bestimmte Anzahl von Erfolgen in einer bestimmten Anzahl von unabhängigen Wiederholungen eines Experiments auftritt
Ein Experiment mit binomialer Verteilung besteht aus einer Reihe von n unabhängigen identischen Versuchen mit zwei Ausgängen.
Die Wahrscheinlichkeit für einen Erfolg wird als p bezeichnet, während die Wahrscheinlichkeit für einen Misserfolg (1-p) beträgt.
Die Wahrscheinlichkeit, dass genau k Erfolge in L Versuchen auftreten, wird durch die binomiale Wahrscheinlichkeitsfunktion berechnet:
Poisson Verteilung
Wahrscheinlichkeit, dass eine bestimmte Anzahl von Ereignissen in einem bestimmten Zeit- oder Raumintervall auftritt.
Zum Beispiel kann sie zur Vorhersage der Anzahl von Bakterienkolonien in einer Petrischale verwendet werden.
λ = durchschnittliche Anzahl von Ereignissen pro Zeit- oder Raumintervall
Die Wahrscheinlichkeit, dass k Ereignisse in einem bestimmten Intervall auftreten, wird durch die folgende Wahrscheinlichkeitsfunktion beschrieben:
Negative Binomialverteilung
diskrete Wahrscheinlichkeitsverteilung, die zur Modellierung von Ereignissen verwendet wird, die in einer Folge von unabhängigen Versuchen auftreten.
Sie beschreibt die Anzahl der Versuche, die erforderlich sind, um eine feste Anzahl von Erfolgen zu erreichen.
Die Wahrscheinlichkeit, dass k Versuche benötigt werden, um r Erfolge zu erzielen, wird durch die folgende Wahrscheinlichkeitsfunktion beschrieben:
Normalverteilung
kontinuierliche Wahrscheinlichkeitsverteilung
Sie wird auch als Gauß-Verteilung oder Normalverteilungskurve bezeichnet
ist durch ihre Wahrscheinlichkeitsdichte definiert, die als Glockenkurve bezeichnet wird. Die Glockenkurve hat eine symmetrische Form, die durch ihre beiden Parameter, den Mittelwert (μ) und die Standardabweichung (σ), beeinflusst wird.
Der Mittelwert bestimmt die zentrale Lage der Kurve, während die Standardabweichung die Breite der Kurve und damit die Streuung der Daten um den Mittelwert bestimmt.
Die Wahrscheinlichkeitsdichte der Normalverteilung ist wie folgt definiert:
t-Verteilung
Wahrscheinlichkeitsverteilung, die häufig in der Statistik verwendet wird, um Konfidenzintervalle zu berechnen und Hypothesentests durchzuführen, wenn die Stichprobengröße klein ist oder die Standardabweichung der Grundgesamtheit unbekannt ist.
Die t-Verteilung ähnelt der Normalverteilung, aber ihre Form ist stärker abhängig von der Stichprobengröße. Sie hat auch einen weiteren Parameter, den sogenannten “degree of freedom” (df), der bestimmt, wie viele Beobachtungen in der Stichprobe enthalten sind.
t-Tests
statistischer Hypothesentest, der verwendet wird, um festzustellen, ob der Mittelwert von zwei Stichproben signifikant unterschiedlich voneinander ist.
basiert auf der t-Verteilung, die bei der Schätzung von Mittelwerten aus kleinen Stichproben verwendet wird.
Es gibt zwei Arten von t-Tests: der einseitige und der zweiseitige t-Test.
Der einseitige t-Test wird verwendet, wenn man erwartet, dass die Mittelwerte in einer bestimmten Richtung unterschiedlich sind (z.B. dass die Mittelwerte in der experimentellen Gruppe höher sind als in der Kontrollgruppe).
Der zweiseitige t-Test wird verwendet, wenn man keine spezifische Erwartung hat und prüfen möchte, ob die Mittelwerte in beiden Richtungen unterschiedlich sind.
Der t-Wert gibt an, wie weit der beobachtete Mittelwert der Stichprobe von einem erwarteten Mittelwert entfernt ist, wenn keine signifikanten Unterschiede vorliegen -> wird dann mit einem kritischen Wert verglichen, der aus der t-Verteilung abgeleitet wird, um zu bestimmen, ob die Unterschiede zwischen den Mittelwerten statistisch signifikant sind oder nicht.
p-Wert
statistische Maße, die in der Inferenzstatistik verwendet werden, um zu beurteilen, ob ein statistischer Zusammenhang zwischen einer Stichprobe und einer zugrundeliegenden Population signifikant ist oder nicht.
Der p-Wert gibt an, wie wahrscheinlich es ist, dass der beobachtete Zusammenhang allein auf Zufall oder Stichprobenfehler zurückzuführen ist.
Konkret wird der p-Wert berechnet, indem man die Wahrscheinlichkeit bestimmt, dass man in einer zufälligen Stichprobe eine Beobachtung oder ein stärkeres Ergebnis erhält, wenn es keinen Zusammenhang zwischen der Stichprobe und der zugrundeliegenden Population gibt. Diiese Wahrscheinlichkeit kann über die Bionomialverteilung oder über die Teststatistik und Normalverteilungstabelle berechnet werden.
Der p-Wert wird dann mit einem vorab festgelegten Signifikanzniveau (z. B. 0,05 oder 0,01) verglichen, um zu entscheiden, ob der Zusammenhang signifikant ist oder nicht.
Wenn der p-Wert kleiner als das Signifikanzniveau ist, wird der Zusammenhang als signifikant angesehen, was bedeutet, dass es unwahrscheinlich ist, dass der Zusammenhang allein auf Zufall oder Stichprobenfehler zurückzuführen ist. Die H0-Hypothese wird angenommen.
Wenn der p-Wert größer als das Signifikanzniveau ist, wird der Zusammenhang als nicht signifikant angesehen, was bedeutet, dass der Zusammenhang möglicherweise auf Zufall oder Stichprobenfehler zurückzuführen ist. Die H0-Hypothese wird abgelehnt.
p-Wert einseitig / zweiseitig
Unterschied t-Wert und p-Wert
t-Wert
Größes des Unterschied zwischen den Mittelwerten zweier Gruppen in Standardabweichungen -> Je größer der t-Wert, desto wahrscheinlicher ist es, dass die Mittelwerte signifikant unterschiedlich sind.
Wahrscheinlichkeit, dass der beobachtete Unterschied zwischen den Mittelwerten allein aufgrund von Zufall oder Stichprobenfehlern auftritt -> Ein kleiner p-Wert (<0,05) zeigt an, dass die Wahrscheinlichkeit gering ist, dass der beobachtete Unterschied auf Zufall beruht, und dass der Unterschied signifikant ist.
Wann kann der t-Test verwendet werden?
Normality: data must be (approximately) normally distributed
→ check using
QQ-plot
statistical tests: Shapiro-Wilks / Kolmogorov-Smirnov
if not, apply non-parametrical test
Variance of samples must be equal
if so: Student t-test
if not: Welch t-test
Independence: values in one sample should not be influenced by those in the second sample
Proportion tests
This class of tests can be used when searching for :
relation between different categorical variables -> Is there a relation between social background and school grades?
comparison of observed vs. expected counts -> Is there a significant gender bias in the math department if 4 professors out of 10 are women?
Two tests are generally used:
Fisher-Exact test (FET): gives an exact p-value, used for small samples
chi-square test: for larger samples (n>5 in each category)
both tests are equivalent for large n
Multiples testen
statistisches Konzept, das sich mit der gleichzeitigen Durchführung mehrerer statistischer Tests befasst.
Es tritt auf, wenn in einer Studie mehrere Hypothesen oder Variablen untersucht werden, und jeder Test einen p-Wert generiert, der angibt, wie wahrscheinlich es ist, dass ein Unterschied oder eine Beziehung zwischen den Variablen auf Zufall beruht.
Das Problem beim Multiplen Testen ist, dass je mehr Tests durchgeführt werden, desto höher ist die Wahrscheinlichkeit, dass zufällig ein signifikanter p-Wert auftritt, auch wenn es keinen tatsächlichen Unterschied oder keine tatsächliche Beziehung gibt. Dies wird als "Fehler erster Art" oder "false positive" bezeichnet und kann zu falschen Schlussfolgerungen führen.
Um dieses Problem zu minimieren, gibt es verschiedene Methoden des adjustments (Anpassungen), wie z.B. der Bonferroni-Korrektur oder der Benjamini-Hochberg-Ansatz.
Es ist wichtig zu beachten, dass das multiple Testen eine wichtige Rolle bei der Interpretation von Studienergebnissen spielt und berücksichtigt werden sollte, um zuverlässige Ergebnisse zu gewährleisten.
Bonferroni-Korrektur
Methode des adjustments von p-Werten durch Anpassen der Signifikanzschwelle
Statt der üblichen Signifikanzschwelle von 0,05 (5%) wird die Signifikanzschwelle durch die Anzahl der durchgeführten Tests geteilt. Wenn z.B. 10 Tests durchgeführt werden, würde die Signifikanzschwelle auf 0,005 (0,5%) reduziert werden, um das Risiko von false positives zu reduzieren.
Die Bonferroni-Korrektur ist eine einfache Methode, um das Problem des Multiples Testens zu berücksichtigen. Allerdings kann sie auch konservativ sein, d.h. sie kann dazu führen, dass tatsächlich signifikante Ergebnisse als nicht signifikant abgelehnt werden, wenn sie knapp unterhalb der angepassten Signifikanzschwelle liegen.
Benjamini-Hochberg-Ansatz
Korrektur von p-Werten durch minimieren der Anzahl der falsch positiven Ergebnisse, während die Anzahl der tatsächlich signifikanten Tests maximiert wird.
Die p-Werte aller Tests werden in aufsteigender Reihenfolge geordnet und mit einem Schwellenwert verglichen, der durch die FDR-Kontrollrate (false discovery rate) definiert wird. Die FDR-Kontrollrate gibt das Verhältnis von falsch positiven Ergebnissen zur Gesamtzahl der Entdeckungen an.
Der Benjamini-Hochberg-Ansatz erlaubt es, die Anzahl der Entdeckungen zu maximieren, indem er die Anzahl der falschen Entdeckungen kontrolliert. Die Methode ist jedoch weniger konservativ als die Bonferroni-Korrektur und kann dazu führen, dass mehr Testergebnisse als signifikant eingestuft werden, die möglicherweise tatsächlich falsch positiv sind.
Lineare Regression
Ermöglicht es, ausgehend von einer order mehreren Variablen eine weitere Variable vorherzusagen
Messung des Einflusses einer Variablen auf eine andere
Verhersagen der Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen. Die lineare Regression geht davon aus, dass es eine lineare Beziehung zwischen der abhängigen Variable und den unabhängigen Variablen gibt.
Die Methode geht davon aus, dass die abhängige Variable durch eine Linearkombination der unabhängigen Variablen und einem Fehlerterm beschrieben werden kann ((x1*b1)+…+(xk*bk)+a). Der Schwerpunkt der linearen Regression liegt auf der Schätzung der Parameter, die die Beziehung zwischen den Variablen am besten beschreiben.
b1, … , bk sollten signifikant unterschiedlich von 0 sein -> dann hat der jeweilige X wert einen großen EInfluss -> bestimmen mit p-Wert ob signifikanter Unterschied
Die einfachste Form der linearen Regression ist die einfache lineare Regression, bei der eine abhängige Variable durch eine einzige unabhängige Variable beschrieben wird.
Die Multiple lineare Regression wird verwendet, wenn es mehrere unabhängige Variablen gibt, die die abhängige Variable beeinflussen.
R (Multipler Korrelationskoeffizient): Erfasst den Zusammenhang/Korrelation zwischen der abhängigen Variable und den unabhängigen Variablen
-> R = 1 -> absoluter Zusammenhang
R^2 (Varianzaufklärung): Gibt an wieviel der Varianz der abhängigen Variable durch die unabhängigen Variablen erklärt werden kann
-> R^2 = 1 -> kann komplett erklärt werden
Residuen
Differenzen zwischen den tatsächlichen Werten der abhängigen Variablen und den von der Regression vorhergesagten Werten.
IDas Residuum kann als Messung der Abweichung der tatsächlichen Daten von der vorhergesagten Linie betrachtet werden. Ein Residuum von null würde bedeuten, dass der beobachtete Wert genau mit der vorhergesagten Linie übereinstimmt.
Positive Residuen deuten darauf hin, dass der tatsächliche Wert höher ist als der erwartete Wert, während negative Residuen darauf hinweisen, dass der tatsächliche Wert niedriger ist als der erwartete Wert.
Die Analyse der Residuen ist ein wichtiger Teil der linearen Regressionsanalyse, da sie dazu beitragen kann, zu beurteilen, wie gut das Modell die Daten passend macht. Wenn die Residuen zufällig um Null verteilt sind und keine Muster aufweisen, ist dies ein Indiz dafür, dass das Modell die Daten gut passt. Andererseits können nicht zufällige Muster in den Residuen darauf hinweisen, dass das Modell nicht ausreichend ist oder dass bestimmte Annahmen der linearen Regression verletzt wurden.
Varianz decomposiiton / Verianzzerlegung
um zu bestimmen, wie viel der Gesamtvarianz eines Merkmals durch verschiedene Faktoren erklärt werden kann
Die Idee ist, dass die Gesamtvarianz eines Merkmals in verschiedene Komponenten aufgeteilt werden kann, die jeweils auf spezifische Faktoren zurückzuführen sind. In der Regel wird die Gesamtvarianz in zwei oder mehr Komponenten zerlegt, wobei jede Komponente einem bestimmten Faktor zugeordnet wird.
Bei uns wird die Varianz aufgeteilt in:
Varianz des Modells: Wie viel Modell erklären kann
Varianz der Residuen: Wie viel Modell nicht erklären kann
bei einem guten Fit sollte SSR klein sein und SSM groß
R
M
R^2 ist der Teil der Varianz der von dem Modell erklärt werden kann
logistische Regression
verwendet, um die Wahrscheinlichkeit eines binären Ereignisses (z.B. Ja/Nein, Erfolg/Misserfolg) zu modellieren. Es handelt sich um eine Erweiterung der linearen Regression, die jedoch für kategoriale Zielvariablen geeignet ist.
Die logistische Regression basiert auf einer S-Kurve, die als logistische Funktion bezeichnet wird. Diese Funktion nimmt Werte zwischen 0 und 1 an und gibt somit die Wahrscheinlichkeit an, dass das Ereignis eintritt. Die logistische Regression berechnet die Koeffizienten, die die Beziehung zwischen den unabhängigen Variablen und der abhängigen Variablen beschreiben.
Markov Modelle
Markov models of order k: nucleotide depends on its k predecessors
the probability of each nucleotide depends on the sequence of the
• k preceeding ones
Hidden Markov Modelle
In Hidden Markov Models, we observe a sequence of observed events x, generated by hidden underlying states z
Hidden Markov Modelle (Beispiel Münzwurf)
Markov properties:
parameters (transition A and emission B) do not change during the process !!
Each throw is independent of the previous one
Each transition is independent of the previous one
insgesamt 2^4 = 16 Wege bei Münzwurf (Bei Chromatinstates wären es: 18^10^7
To compute the probability of an observed sequence, we use the Forward algorithm (dynamical programming)
Forward algorithm for Hidden Markov Models
probability of observing sequences until t, and being in state i at t
man berechet die WHK schrittweise:
erst wird die WHK für p(2-1, rot) und p(2-1, blau) berechnet
dann wird die WHK für p(2-1-2, rot) und p(2-1-2, blau) berechnet -> hier können die zuvor berechneten Werte wieder verwendet werden
Viterbi algorithm
What is the most likely sequence of states leading to the observed sequence?
For each time point and each possible state, record the most probable path leading to this state at this time point
Backtracking: starting from the most likely final state (blue), trace back the most likely path leading to this most likely end state.
HMM - learning parameters
how to determine parameters A and B if they are not given...
use a set of training sequences with known states
Initialize random parameters; update these parameters iteratively until convergence (Baum-Welch algorithm, based on Expectation Maximization)
HMM and Chromatin states
We postulate the existence of k (= 15 or 18) chromatin states Each state has a different emission probability for each histone mark ...
Emission and transition probabilities are learned from training data
Der Prozess der Anwendung von HMMs auf Chromatin States kann wie folgt beschrieben werden:
Erstellung des HMM-Modells: Zunächst wird ein HMM-Modell erstellt, das die Zustände des Chromatins, wie z.B. "aktiv", "reprimiert", "poised" usw., und deren Wahrscheinlichkeiten beschreibt.
Anpassung des HMM-Modells: Das HMM-Modell wird anhand von experimentellen Daten angepasst, um die tatsächlichen Zustände des Chromatins zu erfassen.
Vorhersage von Chromatin States: Das HMM-Modell kann verwendet werden, um die Chromatin States in einer unbekannten DNA-Sequenz vorherzusagen. Das HMM-Modell beruht auf der Annahme, dass der Zustand eines bestimmten Chromatinbereichs von den Zuständen seiner unmittelbaren Nachbarn abhängt.
Analyse der Chromatin States: Die vorhergesagten Chromatin States können dann analysiert werden, um die Funktion von Genen und die Regulation der Genexpression zu verstehen.
Machine-learning approach to TFBS prediction
Define a General Binding Potential (GBP) for each base in the genome using a Logistic Regression Approach (LRA) based on a set of features
Training set:
positive (bound bases): center of ChIP peaks for 14 TF datasets in various cell lines
negative (unbound bases): randomly sampled bases (50x more negative sequences)
Features:
sequence features: evolutionary conservation
distance to TSS (Transkriptionsstart)
density of ChIP-seq reads for various histone marks and Pol2
presence of DNAse I hypersensitive region
… (overall 29 Features)
Phases:
Phase 1 (training phase): Logistic regression
learn the parameters βi from training set of positive and negative instances
Phase 2 (test phase): General binding potential
apply the model to novel site
Expectation Maximization am Beispiel der Coins
Expectation Maximization (EM) ist ein iterativer Algorithmus zur Schätzung von Parametern in statistischen Modellen, wenn einige der Daten fehlen oder unvollständig sind. Der Algorithmus besteht aus zwei Schritten: dem Erwartungsschritt (E-Schritt) und dem Maximierungsschritt (M-Schritt).
Der E-Schritt:
Schätzen der fehlenden Daten:
Der E-Schritt beginnt damit, dass die fehlenden Daten (Probability for Red / Blue) geschätzt werden. Dies geschieht durch Berechnung der erwarteten Werte der fehlenden Daten unter Verwendung der aktuellen Schätzwerte der Modellparameter.
Es gibt zwei Münzen mit unterschiedlichen, unbekannten emission probabilities -> Es werden zufällig zwei Initialwerte für die Emission Probabilities angenommen, zB: θ(0)Blue = 0.6 ; θ(0)Red = 0.5
Aus diesen wird die Wahrscheinlichkeit dafür, dass rot / blau genutzt wurde für jede bekannte Serie von 10 Würfen berechnet
Bsp: 4*1, 6*2 -> bei Blau: 0.6^4 * 0.4^6
Die WHK wird Normalisiert zu 1 -> beim Bsp: Blau = 0.35 / Rot = 0.65
Berechnung der gewichteten Likelihood-Funktion:
Nachdem die fehlenden Daten geschätzt wurden, wird die gewichtete Likelihood-Funktion berechnet, indem die vollständigen Daten und die erwarteten Werte der fehlenden Daten kombiniert werden.
Multiplikation der Wahrscheinlichkeiten mit Vorkommen der Ereignisse (1 oder 2)
Bsp: WHK von Blau bei Sequenz 1 (4*1, 6*2) ist 0.35 / von rot 0.65
-> Count for Red: 0.65*4=2.6 mal 1; 0.65*6=3.9 mal 2
Der M-Schritt:
Maximieren der Parameter: Der M-Schritt besteht darin, die Parameter des Modells zu maximieren, indem die gewichtete Likelihood-Funktion maximiert wird. Hier werden die partiellen Ableitungen der gewichteten Likelihood-Funktion nach den Modellparametern gesetzt werden, um ihre optimalen Werte zu finden.
Die Counts werden für alle Serien aufaddiert und eine neue Schätzung der Parameter berechnet:
θ(1)Red = ∑CountRed1 / (∑CountRed1 + ∑CountRed2)
Aktualisieren der Schätzwerte: Nachdem die Parameter maximiert wurden, werden die Schätzwerte der Parameter aktualisiert, um die nächste Iteration des Algorithmus zu starten. Der Prozess wird fortgesetzt, bis die Schätzwerte der Parameter konvergieren oder eine bestimmte Konvergenzkriterium erreicht wird.
Mit dem berechneten θ(1) wird wieder wie von oben angefangen und weiter gerechnet
Unsupervised analysis
Uses only data (features) derived from the experiment
-> No labels (class assignments) are used
Note: Class comparison (e.g. differential expression analysis) is a supervised analysis
Eine unsupervised analysis ist eine Form des maschinellen Lernens, bei der der Algorithmus versucht, Muster und Strukturen in Daten zu identifizieren, ohne dass ihm vorher bekannte Ergebnisse oder Labels vorgegeben werden.
Im Gegensatz zur überwachten Analyse, bei der der Algorithmus trainiert wird, um anhand von beschrifteten Daten bestimmte Muster oder Klassen zu erkennen, wird bei der unüberwachten Analyse versucht, natürliche Gruppierungen oder Ähnlichkeiten in den Daten selbst zu finden.
Ein Beispiel für eine unüberwachte Analyse ist die Clusteranalyse, bei der ähnliche Datenpunkte in Gruppen zusammengefasst werden. Andere Methoden für die unüberwachte Analyse sind die Dimensionsreduktion, bei der die Anzahl der Merkmale reduziert wird, und die Anomalieerkennung, bei der ungewöhnliche oder abnormale Datenpunkte identifiziert werden. Unüberwachte Analyse ist besonders nützlich, wenn es keine vorherigen Kenntnisse oder Hypothesen darüber gibt, welche Muster in den Daten zu finden sind.
Supervised Analysis
Eine supervised analysis ist ein Ansatz in der Datenanalyse, bei dem ein Algorithmus darauf trainiert wird, Muster in Daten zu erkennen und Vorhersagen auf der Grundlage dieser Muster zu treffen. Der Prozess erfordert ein Modell, das mit bekannten Daten trainiert wird, um Vorhersagen für neue, unbekannte Daten zu treffen.
Supervised-Analysen umfassen im Allgemeinen die folgenden Schritte:
Datensammlung und -aufbereitung: Erfassung von Daten und Vorbereitung der Daten für den Analyseprozess.
Trainingsdatensatz erstellen: Auswahl von Daten, die für das Training des Algorithmus verwendet werden sollen.
Modellbildung: Erstellung eines Modells, das die Zusammenhänge zwischen den Daten erfasst. Dazu werden Methoden der Statistik und des maschinellen Lernens eingesetzt.
Validierung des Modells: Überprüfung des Modells mit Hilfe eines Validierungsdatensatzes, um festzustellen, wie gut es auf neuen Daten funktioniert.
Anwendung des Modells: Verwendung des Modells, um Vorhersagen für neue, unbekannte Daten zu treffen.
Supervised-Analysen sind besonders nützlich, wenn es darum geht, komplexe Zusammenhänge in Daten zu entdecken und Vorhersagen zu treffen, die auf diesen Zusammenhängen basieren.
Single Cell Analysis
Single cell analysis is a powerful tool to study heterogeneous tissues
Overcomes fundamental problems that can arise when averaging
scRNA analysis used to
identify novel cell types,
understand the progression from one cell type to another across development or disease
Feature Selection
relevantesten Merkmale (Features) werden aus einem Datensatz ausgewählt (Machine Learning), um eine Vorhersage auf Grundlage dieser Merkmale zu treffen. Das Ziel der Merkmalsauswahl ist es, die Anzahl der Merkmale zu reduzieren und gleichzeitig die Genauigkeit der Vorhersagen beizubehalten oder zu verbessern.
Bsp: Transkriptionsfaktor Erkennung -> Auswahl von relevanten Merkmalen (Features), die zur Vorhersage von Transkriptionsfaktoren (TF) aus DNA-Sequenzen verwendet werden
lange DNA Sequenzen -> Merkmale für TFs identifizieren kann lange dauern / schwierig sein
Die Auswahl der relevanten Merkmale kann manuell durch Expertenwissen oder automatisch durch verschiedene Algorithmen wie z.B. Principal Component Analysis (PCA), Recursive Feature Elimination (RFE), und andere erfolgen.
Eine sorgfältige Merkmalsauswahl kann dazu beitragen, die Vorhersagegenauigkeit von Transkriptionsfaktoren zu verbessern und gleichzeitig die Anzahl der Merkmale zu reduzieren, was zu einer effizienteren und präziseren Analyse der DNA-Sequenzen führt.
Methoden in der Feature Selection
Filter-Methoden:
Merkmale wie die Häufigkeit bestimmter Nukleotidsequenzen, die Bindungsstärke von TFs an bestimmte DNA-Sequenzen und andere genetische Informationen auswählen
Bsp: Chi-Quadrat-Test
Wrapper-Methoden:
Merkmalskombination auswählen, die zu den besten Vorhersagen führt
Bsp: Recursive Feature Elimination (RFE).
Embedded-Methoden:
Bsp: Regularisierung (Overfitting vermeiden und Vorhersagegenauigkeit verbessern)
irrelevante Merkmale unterdrücken und die relevanten Merkmale betonen.
PCA:
Korrelation zwischen den Merkmalen berücksichtigen und eine reduzierte Merkmalsmeng extrahieren, die die maximale Varianz in den Daten enthält
Recursive Feature Elimination algorithmus
Der RFE-Algorithmus funktioniert folgendermaßen:
Zunächst wird ein Lernalgorithmus ausgewählt, z.B. Support Vector Machine (SVM) oder Random Forest.
Der Lernalgorithmus wird auf dem gesamten Datensatz trainiert, und die Bedeutung jedes Merkmals wird berechnet, z.B. mithilfe des Gewichts oder des Beitrags zur Vorhersagegenauigkeit des Modells.
Die Merkmale werden in absteigender Reihenfolge ihrer Bedeutung sortiert, und das Merkmal mit dem niedrigsten Rang wird entfernt.
Das Modell wird erneut trainiert, diesmal nur mit den verbleibenden Merkmalen, und die Vorhersagegenauigkeit des Modells wird gemessen.
Schritte 3 und 4 werden iterativ wiederholt, bis die gewünschte Anzahl von Merkmalen erreicht ist oder die Vorhersagegenauigkeit nicht mehr verbessert wird.
Durch die Verwendung der RFE-Methode können irrelevante Merkmale eliminiert werden, was zu einer verbesserten Vorhersagegenauigkeit des Modells führt.
Klassifizierung von Daten
Das Ziel der Klassifizierung ist es, ein Modell zu entwickeln, das die Klassen von Datensätzen korrekt vorhersagen kann, basierend auf bekannten Beispielen, die als Trainingsdaten dienen.
Es gibt viele verschiedene Algorithmen, die zur Klassifizierung von Daten verwendet werden können, wie z.B.
Naive Bayes
k-Nearest Neighbors (k-NN)
Entscheidungsbäume
Random Forests
Support Vector Machines (SVM)
Neuronale Netze
Anwednung: Objekte in Bildern erkennen und klassifizieren / Krankheitszustände auf der Grundlage von Symptomen oder anderen medizinischen Daten bestimmen.
basiert auf dem Bayes'schen Theorem
verwendet eine Menge von Trainingsdaten, um eine Vorhersage für die Klasse von neuen Daten zu treffen
Schritte, die der Algorithmus typischerweise durchläuft:
Datensatz vorbereiten:
Datensatz wird in Trainingsdaten und Testdaten (Bewertung der Genauigkeit des Modells) aufgeteilt
Wahrscheinlichkeiten berechnen:
Wahrscheinlichkeit, dass eine Instanz (z.B. ein medizinischer Datensatz) in jede mögliche Klasse (z.B. krank oder gesund) fällt
auf Grundlage der Vorkommnisse jeder Merkmalskombination in den Trainingsdaten berechnet.
Bedingte Unabhängigkeit annehmen:
Annahme: alle Merkmale unabhängig voneinander
krank / gesund hängt nicht von der Wahrscheinlichkeit ab, dass bestimmte Schlüsselwörter enthalten sind, sondern nur von der Häufigkeit, mit der diese Kombination in den Trainingsdaten vorkommt.
Merkmale auswählen:
Auswahl der relevanten Merkmale, die für die Klassifizierung der Daten am besten geeignet sind
durch RFE (Recursive Feature Elimination) oder PCA (Principal Component Analysis)
Vorhersage treffen:
Klasse für eine neue Instanz wird auf Grundlage der Merkmale und der berechneten Wahrscheinlichkeiten vorhergesagt
k-Nearest Neighbors
basiert auf der Idee, dass ähnliche Dinge dazu tendieren, in derselben Gruppe zu sein
Der Algorithmus kann auch in der medizinischen Diagnostik eingesetzt werden, um beispielsweise zwischen kranken und gesunden Patienten zu unterscheiden.
Berechnung der Ähnlichkeit:
Distanz zwischen jeder Instanz im Trainingsdatensatz und der zu klassifizierenden Instanz wird berechnet
verschiedene Metriken: euklidische Distanz (mit einem Lineal gemessene Länge einer Strecke, die diese zwei Punkte verbindet) oder kosinushaltige Ähnlichkeit (Ähnlichkeit zweier Vektoren)
Auswahl der k nächsten Nachbarn:
k nächste Nachbarn aus dem Trainingsdatensatz, die der zu klassifizierenden Instanz am ähnlichsten sind, werden ausgewählt
Mehrheitsentscheidung treffen:
Klasse der zu klassifizierenden Instanz wird basierend auf der Mehrheitsentscheidung der k nächsten Nachbarn bestimmt
Genauigkeit evaluieren:
Algorithmus wird auf die Testdaten angewendet, um die Vorhersagegenauigkeit des Modells zu evaluieren
Die Genauigkeit des Modells hängt von der Wahl des k-Werts und der verwendeten Ähnlichkeitsmetrik ab.
Sensitivität
wichtige Kennzahl zur Bewertung der Leistung eines diagnostischen Tests
Anteil der tatsächlich kranken Patienten, die durch den Test als krank erkannt werden.
Sensitivität = (Anzahl der korrekt als krank identifizierten Patienten) / (Gesamtzahl der tatsächlich kranken Patienten)
Spezifizität
Kennzahl zur Bewertung der Leistung eines diagnostischen Tests in der medizinischen Diagnostik
Anteil der tatsächlich gesunden Patienten an, die durch den Test als gesund erkannt werden.
Spezifität = (Anzahl der korrekt als gesund identifizierten Patienten) / (Gesamtzahl der tatsächlich gesunden Patienten)
Kreuzvalidierung
Kreuzvalidierung (engl. cross-validation)
Leistung eines statistischen Modells oder einer Machine-Learning-Anwendung wird bewertet, indem man die vorhandenen Daten in Trainings- und Testdatensätze aufteilt
k-fache Kreuzvalidierung (einfachste Form):
vorhandene Daten werden in k gleich große Teilmengen aufgeteilt
Modell wird dann k-mal trainiert und getestet, wobei jedes Mal eine andere Teilmenge als Testdatensatz verwendet wird und die anderen k-1 Teilmengen als Trainingsdatensatz dienen.
Die Ergebnisse werden dann gemittelt, um eine Bewertung der Leistung des Modells insgesamt zu erhalten.
Die Kreuzvalidierung ermöglicht es, die Vorhersagegenauigkeit eines Modells realistischer zu bewerten, da es eine bessere Kontrolle über die Varianz der Bewertung ermöglicht.
Es hilft auch, das Overfitting-Problem zu reduzieren, bei dem ein Modell gut auf den Trainingsdaten funktioniert, aber schlechte Vorhersagen auf neuen, unabhängigen Daten liefert.
Zuletzt geändertvor einem Jahr