05-RNA-Seq Theory

by David S.

Wie wird RPKM berechnet?

- RPKM = (10⁹ × C) / (N × L)/C = Anzahl der Reads für ein Gen,/N = Gesamtzahl der gemappten Reads,/L = Länge des Gens in Basenpaaren./Korrigiert für Genlänge und Sequenziertiefe.

Wie wird FPKM berechnet?

- FPKM = (10⁹ × F) / (N × L)/F = Anzahl der Fragments (bei paired-end Reads),/N = Gesamtzahl der Fragments,/L = Länge des Transkripts./Vermeidet Doppelzählung durch gepaarte Reads.

Wie wird TPM berechnet?

- 1️⃣ RPK = C / L × 10³,/2️⃣ TPM = (RPK / ΣRPK) × 10⁶./Zuerst Normalisierung nach Länge, dann auf Gesamtmenge der Reads → TPM summiert zu 1 Mio.

Wie unterscheiden sich RPKM und TPM rechnerisch?

- Bei RPKM wird zuerst durch Gesamtzahl Reads geteilt,/bei TPM zuerst Längen-normalisiert und dann auf Summe = 10⁶ skaliert./→ TPM-Werte zwischen Proben vergleichbar.

Wie lautet die Formel der Library Size Normalization?

- Normierter Wert = Count / (Gesamtzahl Reads / Skalierungsfaktor)./Oft Skalierung auf 1 Mio Reads.

Wie funktioniert Log₂-Transformation?

- log₂(x + 1) → stabilisiert Varianz, vermeidet Division durch Null./Beispiel: Count = 7 → log₂(8) = 3.

Wie funktioniert Centering mathematisch?

- x' = x − mean(x)/Ergebnis hat Mittelwert 0./Entfernt systematische Level-Unterschiede.

Wie funktioniert Scaling mathematisch?

- x'' = (x − mean(x)) / sd(x)/Ergebnis: Mittel = 0, Varianz = 1 → Standardisierung.

Wie funktioniert Quantile Normalization?

- 1️⃣ Sortiere Werte jeder Probe,/2️⃣ Bilde Mittelwert jedes Rangs,/3️⃣ Ersetze alle Werte gleichen Rangs durch diesen Mittelwert./Alle Proben erhalten gleiche Verteilungsform.

Wie wird Loess-Normalisierung berechnet?

- Korrektur durch lokale Regressionsanpassung:/M = log₂(IntensitätA) − log₂(IntensitätB),/A = (log₂(IntensitätA) + log₂(IntensitätB))/2,/Loess glättet M ~ A zur Bias-Korrektur.

Wie berechnet man Fold Change (FC)?

- FC = Wert_Bedingung2 / Wert_Bedingung1,/meist log₂-transformiert: log₂FC = log₂(Wert₂/Wert₁).

Wie berechnet man den log₂-Fold-Change?

- log₂FC = log₂(x₂) − log₂(x₁)/Positive Werte → Hochregulierung, negative → Runterregulierung.

Wie wird der Mittelwert-Intensitätswert (A) im MA-Plot berechnet?

- A = (log₂(I₁) + log₂(I₂)) / 2.

Wie wird der Log-Verhältniswert (M) im MA-Plot berechnet?

- M = log₂(I₁) − log₂(I₂)/M zeigt Änderung, A zeigt mittlere Intensität.

Wie funktioniert Background Correction bei Microarrays?

- Signal_korrigiert = Signal_roh − Hintergrundwert/Vermeidet falsche Positivsignale durch Grundrauschen.

Wie wird ein z-transformierter Expressionswert berechnet?

- z = (x − μ) / σ/Ermöglicht Vergleich von Genexpression über Proben hinweg.

Wie wird ein normalisierter Count in DESeq2 berechnet?

- normCount = rawCount / sizeFactor/sizeFactor = Median der Ratios von Rohwerten zu geometrischem Mittel aller Gene.

Wie wird FDR (False Discovery Rate) berechnet?

- FDR = (FP / (TP + FP))/In der Praxis durch Benjamini-Hochberg-Korrektur: pᵢ × (n / Rang(pᵢ)).

Wie funktioniert die Benjamini-Hochberg-Korrektur?

- Sortiere p-Werte aufsteigend,/berechne qᵢ = (pᵢ × n) / Rang(pᵢ),/begrenze auf max(qᵢ) ≤ 1./Ergebnis: adjustierte FDR-Werte.

Wie wird Varianzstabilisierung durchgeführt (VST)?

- Transformation ähnlich log, aber datenabhängig:/vst(x) ≈ log₂(x + √(x² + α)),/reduziert Heteroskedastizität.

Wie funktioniert die TMM-Normalisierung (Trimmed Mean of M-values)?

- Berechnet Skalierungsfaktoren basierend auf log₂-Fold-Changes (M) und Mittelwerten (A)./Extremwerte (Trim) werden ausgeschlossen → robustere Library-Normalisierung.

Wie wird TPM auf 1 Mio skaliert?

- TPM_i = (RPK_i / ΣRPK) × 10⁶/Summe aller TPM-Werte in Probe = 1,000,000.

Wie werden Counts auf Reads-per-Million (CPM) normalisiert?

- CPM = (Count / Gesamtzahl Reads) × 10⁶./Einfachste Tiefennormalisierung.

Wie berechnet man GC-Korrektur?

- Modelliert Abhängigkeit zwischen GC-Gehalt und Reads (z. B. durch Regression) und korrigiert erwartete Counts.

Wie berechnet man Batch-Effekt-Korrektur (ComBat)?

- Für jedes Gen: adjustierter Wert = (x − α_batch)/β_batch,/basierend auf Mittelwert- und Varianzunterschieden zwischen Batches.

Wie berechnet man Pearson-Korrelation der Expressionsprofile?

- r = cov(X,Y)/(σₓ·σᵧ)/Misst linearen Zusammenhang zwischen Expressionsmustern zweier Gene.

Wie berechnet man die Varianz vor und nach Normalisierung?

- Var_vor = var(rawCounts), Var_nach = var(normCounts)./Ziel: Var_nach ≈ homogen über Proben.

Wie berechnet man relative Expression (ΔΔCt, analog für RNA-Seq)?

- ΔΔ = (x_sample − x_control) − (ref_sample − ref_control)/Standardmethode für relative Expression, angepasst auf RNA-Seq-Daten.

Wie wird Normalisierung auf Housekeeping-Gene angewendet?

- normExpr = Expr_gene / Expr_housekeeping./Korrigiert systematische Unterschiede zwischen Proben.

Wie wird Library Depth Korrektur im TPM-Schritt integriert?

- Summe aller RPKs → skaliert TPM auf gleiche Librarygröße (1 Mio).

Wann verwendet man RNA-Seq statt Microarrays?

- Wenn man neue Transkripte oder Isoformen erfassen will oder eine größere Dynamik erwartet./RNA-Seq misst direkt Sequenzen statt nur bekannte Sonden.

Wann ist Microarray-Analyse sinnvoller?

- Wenn man viele bekannte Gene günstig und schnell quantifizieren will und Referenzsonden vorhanden sind.

Wann ist RPKM geeignet?

- Für Vergleich innerhalb derselben Probe, wenn man Unterschiede zwischen Genen einer Probe betrachtet./Nicht für Vergleich zwischen Proben geeignet.

Wann ist TPM besser als RPKM?

- Für Vergleich zwischen verschiedenen Proben./TPM sorgt dafür, dass Gesamtsumme der Transkripte in jeder Probe gleich (1 Mio) ist → bessere Vergleichbarkeit.

Wann nutzt man FPKM statt RPKM?

- Bei paired-end-Sequenzierung, um doppelte Zählung von Fragments zu vermeiden.

Wann sollte man Raw Counts nicht direkt vergleichen?

- Weil sie stark von Sequenziertiefe und Librarygröße abhängen./Erst nach Normalisierung sinnvoll.

Wann nutzt man CPM-Normalisierung?

- Für schnelle Grobanalyse oder Visualisierung, wenn Unterschiede der Librarygröße ausgeglichen werden sollen.

Wann ist Log₂-Transformation sinnvoll?

- Wenn große Unterschiede oder Heteroskedastizität bestehen./Stabilisiert Varianz und macht Daten symmetrischer.

Wann nutzt man Centering + Scaling?

- Wenn man Proben standardisieren will, z. B. für PCA oder Clustering./Entfernt Mittelwert- und Varianzunterschiede.

Wann ist Quantile-Normalisierung sinnvoll?

- Wenn alle Proben ähnliche globale Verteilungen haben sollten (z. B. Microarrays)./Erzwingt gleiche Wertverteilung.

Wann ist Loess-Normalisierung besser?

- Wenn Verzerrungen intensitätsabhängig sind (z. B. M-A-Bias)./Korrigiert systematisch über Helligkeit.

Wann ist TMM-Normalisierung (edgeR) empfehlenswert?

- Wenn Librarygrößen und Kompositionen stark variieren./Robust gegen wenige stark exprimierte Gene.

Wann ist DESeq2-Normalisierung nützlich?

- Wenn Count-Daten mit unterschiedlicher Librarygröße vorliegen./Verwendet Median-Ratio-Ansatz → robust, ohne Annahme über Verteilung.

Wann sind Housekeeping-Gene für Normalisierung geeignet?

- Wenn sie stabile Expression über alle Bedingungen zeigen./Dienen als Referenz zur Korrektur globaler Unterschiede.

Wann ist Quantile-Normalisierung problematisch?

- Wenn Proben biologisch sehr unterschiedlich sind (z. B. Tumor vs. Normal)./Erzwungene Gleichverteilung kann echte Effekte verwischen.

Wann nutzt man ComBat-Batch-Korrektur?

- Wenn technischer Batch-Effekt (z. B. Sequenzierlauf, Labor) Unterschiede erzeugt, die nicht biologisch sind.

Wann erkennt man Batch-Effekte?

- Wenn Proben sich in PCA nach Sequenzierlauf statt Bedingung gruppieren./Deutet auf systematische Verzerrung hin.

Wann nutzt man MA-Plot?

- Um Bias oder ungleichmäßige Verteilungen zwischen zwei Proben zu erkennen./M nahe 0 → keine systematischen Effekte.

Wann nutzt man Volcano-Plot?

- Für visuelle Darstellung von differentiell exprimierten Genen (log₂FC vs −log₁₀ p-Wert).

Wann ist Log-Transformation bei niedrigen Counts kritisch?

- Kleine Werte (<1) können stark verzerrt werden → daher log₂(x + 1) verwenden.

Wann ist TPM statt DESeq2-Normalization vorzuziehen?

- Wenn Fokus auf relative Transkriptabundanz liegt (Vergleich über Samples)./DESeq2-Norm besser für Differential-Expression-Tests.

Wann ist RNA-Seq empfindlicher als Microarray?

- RNA-Seq erkennt auch seltene Transkripte und besitzt größeren Dynamikbereich.

Wann ist Microarray robuster?

- Geringere technische Varianz, keine Abhängigkeit von Leseanzahl, aber limitiert auf bekannte Gene.

Wann ist eine tiefe Sequenziertiefe notwendig?

- Wenn Gene mit niedriger Expression oder seltene Isoformen untersucht werden sollen.

Wann ist eine hohe Sequenziertiefe ineffizient?

- Wenn Zielgene stark exprimiert sind → zusätzliche Reads liefern kaum neue Information.

Wann nutzt man Logarithmus statt Z-Transformation?

- Wenn man Werte in unterschiedlichen Größenordnungen vergleichen will, nicht aber absolute Standardisierung braucht.

Wann nutzt man Z-Transformation?

- Wenn man Gene zwischen Proben vergleichen will → Mittel 0, SD 1 = vergleichbare Skalen.

Wann ist Normalisierung auf Feature-Level besser?

- Wenn technische Effekte je Gen unterschiedlich sind (z. B. Längen- oder GC-Bias)./z. B. TPM.

Wann ist Sample-Level-Normalisierung besser?

- Wenn globale Unterschiede (Sequenziertiefe, Batch) korrigiert werden müssen.

Wann ist Multiple-Testing-Korrektur erforderlich?

- Bei vielen Genvergleichen gleichzeitig (tausende Tests)./Reduziert Falsch-Positiv-Rate (FDR).

Wann verwendet man log₂-Fold-Change statt einfachem FC?

- Um symmetrische Skala zu erhalten: log₂(2)=1 → Verdopplung,/log₂(0.5)=−1 → Halbierung.

Wann ist ein Fold-Change nicht aussagekräftig?

- Bei sehr kleinen Basalwerten → kleine absolute Änderungen führen zu großen FCs.

Wann prüft man vor der Normalisierung die Verteilung?

- Immer → ungleiche Libraries oder Outlier können Verfahren wie Quantile-Norm verfälschen.

Wann sollte man Outlier entfernen?

- Wenn einzelne Proben technisch fehlerhaft sind und alle Normalisierungen dominieren würden.

Wann ist Daten-Transformation nach Normalisierung nötig?

- Für lineare Modelle (z. B. limma) oder Visualisierung → z. B. log₂ oder VST.

Wann nutzt man PCA nach Normalisierung?

- Um zu prüfen, ob technische Effekte entfernt wurden und Gruppen klar trennbar sind.

Wann ist eine FDR < 0.05 relevant?

- Wenn man streng kontrollierte Signifikanz will → < 5 % erwartete Falsch-Positive unter den signifikanten Genen.

Join Course

Preview

Author

David S.

Information

Last changed
5 months ago

Report course