Wie wird RPKM berechnet?
- RPKM = (10⁹ × C) / (N × L)/C = Anzahl der Reads für ein Gen,/N = Gesamtzahl der gemappten Reads,/L = Länge des Gens in Basenpaaren./Korrigiert für Genlänge und Sequenziertiefe.
Wie wird FPKM berechnet?
- FPKM = (10⁹ × F) / (N × L)/F = Anzahl der Fragments (bei paired-end Reads),/N = Gesamtzahl der Fragments,/L = Länge des Transkripts./Vermeidet Doppelzählung durch gepaarte Reads.
Wie wird TPM berechnet?
- 1️⃣ RPK = C / L × 10³,/2️⃣ TPM = (RPK / ΣRPK) × 10⁶./Zuerst Normalisierung nach Länge, dann auf Gesamtmenge der Reads → TPM summiert zu 1 Mio.
Wie unterscheiden sich RPKM und TPM rechnerisch?
- Bei RPKM wird zuerst durch Gesamtzahl Reads geteilt,/bei TPM zuerst Längen-normalisiert und dann auf Summe = 10⁶ skaliert./→ TPM-Werte zwischen Proben vergleichbar.
Wie lautet die Formel der Library Size Normalization?
- Normierter Wert = Count / (Gesamtzahl Reads / Skalierungsfaktor)./Oft Skalierung auf 1 Mio Reads.
Wie funktioniert Log₂-Transformation?
- log₂(x + 1) → stabilisiert Varianz, vermeidet Division durch Null./Beispiel: Count = 7 → log₂(8) = 3.
Wie funktioniert Centering mathematisch?
- x' = x − mean(x)/Ergebnis hat Mittelwert 0./Entfernt systematische Level-Unterschiede.
Wie funktioniert Scaling mathematisch?
- x'' = (x − mean(x)) / sd(x)/Ergebnis: Mittel = 0, Varianz = 1 → Standardisierung.
Wie funktioniert Quantile Normalization?
- 1️⃣ Sortiere Werte jeder Probe,/2️⃣ Bilde Mittelwert jedes Rangs,/3️⃣ Ersetze alle Werte gleichen Rangs durch diesen Mittelwert./Alle Proben erhalten gleiche Verteilungsform.
Wie wird Loess-Normalisierung berechnet?
- Korrektur durch lokale Regressionsanpassung:/M = log₂(IntensitätA) − log₂(IntensitätB),/A = (log₂(IntensitätA) + log₂(IntensitätB))/2,/Loess glättet M ~ A zur Bias-Korrektur.
Wie berechnet man Fold Change (FC)?
- FC = Wert_Bedingung2 / Wert_Bedingung1,/meist log₂-transformiert: log₂FC = log₂(Wert₂/Wert₁).
Wie berechnet man den log₂-Fold-Change?
- log₂FC = log₂(x₂) − log₂(x₁)/Positive Werte → Hochregulierung, negative → Runterregulierung.
Wie wird der Mittelwert-Intensitätswert (A) im MA-Plot berechnet?
- A = (log₂(I₁) + log₂(I₂)) / 2.
Wie wird der Log-Verhältniswert (M) im MA-Plot berechnet?
- M = log₂(I₁) − log₂(I₂)/M zeigt Änderung, A zeigt mittlere Intensität.
Wie funktioniert Background Correction bei Microarrays?
- Signal_korrigiert = Signal_roh − Hintergrundwert/Vermeidet falsche Positivsignale durch Grundrauschen.
Wie wird ein z-transformierter Expressionswert berechnet?
- z = (x − μ) / σ/Ermöglicht Vergleich von Genexpression über Proben hinweg.
Wie wird ein normalisierter Count in DESeq2 berechnet?
- normCount = rawCount / sizeFactor/sizeFactor = Median der Ratios von Rohwerten zu geometrischem Mittel aller Gene.
Wie wird FDR (False Discovery Rate) berechnet?
- FDR = (FP / (TP + FP))/In der Praxis durch Benjamini-Hochberg-Korrektur: pᵢ × (n / Rang(pᵢ)).
Wie funktioniert die Benjamini-Hochberg-Korrektur?
- Sortiere p-Werte aufsteigend,/berechne qᵢ = (pᵢ × n) / Rang(pᵢ),/begrenze auf max(qᵢ) ≤ 1./Ergebnis: adjustierte FDR-Werte.
Wie wird Varianzstabilisierung durchgeführt (VST)?
- Transformation ähnlich log, aber datenabhängig:/vst(x) ≈ log₂(x + √(x² + α)),/reduziert Heteroskedastizität.
Wie funktioniert die TMM-Normalisierung (Trimmed Mean of M-values)?
- Berechnet Skalierungsfaktoren basierend auf log₂-Fold-Changes (M) und Mittelwerten (A)./Extremwerte (Trim) werden ausgeschlossen → robustere Library-Normalisierung.
Wie wird TPM auf 1 Mio skaliert?
- TPM_i = (RPK_i / ΣRPK) × 10⁶/Summe aller TPM-Werte in Probe = 1,000,000.
Wie werden Counts auf Reads-per-Million (CPM) normalisiert?
- CPM = (Count / Gesamtzahl Reads) × 10⁶./Einfachste Tiefennormalisierung.
Wie berechnet man GC-Korrektur?
- Modelliert Abhängigkeit zwischen GC-Gehalt und Reads (z. B. durch Regression) und korrigiert erwartete Counts.
Wie berechnet man Batch-Effekt-Korrektur (ComBat)?
- Für jedes Gen: adjustierter Wert = (x − α_batch)/β_batch,/basierend auf Mittelwert- und Varianzunterschieden zwischen Batches.
Wie berechnet man Pearson-Korrelation der Expressionsprofile?
- r = cov(X,Y)/(σₓ·σᵧ)/Misst linearen Zusammenhang zwischen Expressionsmustern zweier Gene.
Wie berechnet man die Varianz vor und nach Normalisierung?
- Var_vor = var(rawCounts), Var_nach = var(normCounts)./Ziel: Var_nach ≈ homogen über Proben.
Wie berechnet man relative Expression (ΔΔCt, analog für RNA-Seq)?
- ΔΔ = (x_sample − x_control) − (ref_sample − ref_control)/Standardmethode für relative Expression, angepasst auf RNA-Seq-Daten.
Wie wird Normalisierung auf Housekeeping-Gene angewendet?
- normExpr = Expr_gene / Expr_housekeeping./Korrigiert systematische Unterschiede zwischen Proben.
Wie wird Library Depth Korrektur im TPM-Schritt integriert?
- Summe aller RPKs → skaliert TPM auf gleiche Librarygröße (1 Mio).
Wann verwendet man RNA-Seq statt Microarrays?
- Wenn man neue Transkripte oder Isoformen erfassen will oder eine größere Dynamik erwartet./RNA-Seq misst direkt Sequenzen statt nur bekannte Sonden.
Wann ist Microarray-Analyse sinnvoller?
- Wenn man viele bekannte Gene günstig und schnell quantifizieren will und Referenzsonden vorhanden sind.
Wann ist RPKM geeignet?
- Für Vergleich innerhalb derselben Probe, wenn man Unterschiede zwischen Genen einer Probe betrachtet./Nicht für Vergleich zwischen Proben geeignet.
Wann ist TPM besser als RPKM?
- Für Vergleich zwischen verschiedenen Proben./TPM sorgt dafür, dass Gesamtsumme der Transkripte in jeder Probe gleich (1 Mio) ist → bessere Vergleichbarkeit.
Wann nutzt man FPKM statt RPKM?
- Bei paired-end-Sequenzierung, um doppelte Zählung von Fragments zu vermeiden.
Wann sollte man Raw Counts nicht direkt vergleichen?
- Weil sie stark von Sequenziertiefe und Librarygröße abhängen./Erst nach Normalisierung sinnvoll.
Wann nutzt man CPM-Normalisierung?
- Für schnelle Grobanalyse oder Visualisierung, wenn Unterschiede der Librarygröße ausgeglichen werden sollen.
Wann ist Log₂-Transformation sinnvoll?
- Wenn große Unterschiede oder Heteroskedastizität bestehen./Stabilisiert Varianz und macht Daten symmetrischer.
Wann nutzt man Centering + Scaling?
- Wenn man Proben standardisieren will, z. B. für PCA oder Clustering./Entfernt Mittelwert- und Varianzunterschiede.
Wann ist Quantile-Normalisierung sinnvoll?
- Wenn alle Proben ähnliche globale Verteilungen haben sollten (z. B. Microarrays)./Erzwingt gleiche Wertverteilung.
Wann ist Loess-Normalisierung besser?
- Wenn Verzerrungen intensitätsabhängig sind (z. B. M-A-Bias)./Korrigiert systematisch über Helligkeit.
Wann ist TMM-Normalisierung (edgeR) empfehlenswert?
- Wenn Librarygrößen und Kompositionen stark variieren./Robust gegen wenige stark exprimierte Gene.
Wann ist DESeq2-Normalisierung nützlich?
- Wenn Count-Daten mit unterschiedlicher Librarygröße vorliegen./Verwendet Median-Ratio-Ansatz → robust, ohne Annahme über Verteilung.
Wann sind Housekeeping-Gene für Normalisierung geeignet?
- Wenn sie stabile Expression über alle Bedingungen zeigen./Dienen als Referenz zur Korrektur globaler Unterschiede.
Wann ist Quantile-Normalisierung problematisch?
- Wenn Proben biologisch sehr unterschiedlich sind (z. B. Tumor vs. Normal)./Erzwungene Gleichverteilung kann echte Effekte verwischen.
Wann nutzt man ComBat-Batch-Korrektur?
- Wenn technischer Batch-Effekt (z. B. Sequenzierlauf, Labor) Unterschiede erzeugt, die nicht biologisch sind.
Wann erkennt man Batch-Effekte?
- Wenn Proben sich in PCA nach Sequenzierlauf statt Bedingung gruppieren./Deutet auf systematische Verzerrung hin.
Wann nutzt man MA-Plot?
- Um Bias oder ungleichmäßige Verteilungen zwischen zwei Proben zu erkennen./M nahe 0 → keine systematischen Effekte.
Wann nutzt man Volcano-Plot?
- Für visuelle Darstellung von differentiell exprimierten Genen (log₂FC vs −log₁₀ p-Wert).
Wann ist Log-Transformation bei niedrigen Counts kritisch?
- Kleine Werte (<1) können stark verzerrt werden → daher log₂(x + 1) verwenden.
Wann ist TPM statt DESeq2-Normalization vorzuziehen?
- Wenn Fokus auf relative Transkriptabundanz liegt (Vergleich über Samples)./DESeq2-Norm besser für Differential-Expression-Tests.
Wann ist RNA-Seq empfindlicher als Microarray?
- RNA-Seq erkennt auch seltene Transkripte und besitzt größeren Dynamikbereich.
Wann ist Microarray robuster?
- Geringere technische Varianz, keine Abhängigkeit von Leseanzahl, aber limitiert auf bekannte Gene.
Wann ist eine tiefe Sequenziertiefe notwendig?
- Wenn Gene mit niedriger Expression oder seltene Isoformen untersucht werden sollen.
Wann ist eine hohe Sequenziertiefe ineffizient?
- Wenn Zielgene stark exprimiert sind → zusätzliche Reads liefern kaum neue Information.
Wann nutzt man Logarithmus statt Z-Transformation?
- Wenn man Werte in unterschiedlichen Größenordnungen vergleichen will, nicht aber absolute Standardisierung braucht.
Wann nutzt man Z-Transformation?
- Wenn man Gene zwischen Proben vergleichen will → Mittel 0, SD 1 = vergleichbare Skalen.
Wann ist Normalisierung auf Feature-Level besser?
- Wenn technische Effekte je Gen unterschiedlich sind (z. B. Längen- oder GC-Bias)./z. B. TPM.
Wann ist Sample-Level-Normalisierung besser?
- Wenn globale Unterschiede (Sequenziertiefe, Batch) korrigiert werden müssen.
Wann ist Multiple-Testing-Korrektur erforderlich?
- Bei vielen Genvergleichen gleichzeitig (tausende Tests)./Reduziert Falsch-Positiv-Rate (FDR).
Wann verwendet man log₂-Fold-Change statt einfachem FC?
- Um symmetrische Skala zu erhalten: log₂(2)=1 → Verdopplung,/log₂(0.5)=−1 → Halbierung.
Wann ist ein Fold-Change nicht aussagekräftig?
- Bei sehr kleinen Basalwerten → kleine absolute Änderungen führen zu großen FCs.
Wann prüft man vor der Normalisierung die Verteilung?
- Immer → ungleiche Libraries oder Outlier können Verfahren wie Quantile-Norm verfälschen.
Wann sollte man Outlier entfernen?
- Wenn einzelne Proben technisch fehlerhaft sind und alle Normalisierungen dominieren würden.
Wann ist Daten-Transformation nach Normalisierung nötig?
- Für lineare Modelle (z. B. limma) oder Visualisierung → z. B. log₂ oder VST.
Wann nutzt man PCA nach Normalisierung?
- Um zu prüfen, ob technische Effekte entfernt wurden und Gruppen klar trennbar sind.
Wann ist eine FDR < 0.05 relevant?
- Wenn man streng kontrollierte Signifikanz will → < 5 % erwartete Falsch-Positive unter den signifikanten Genen.
Last changed2 months ago