Buffl

VL 1

LU
von Luise U.

Wie sieht der klassische Bioinformatik Workflow aus ?


1. Datenerhebung:

  • Beschreibung: Sammlung der biologischen Daten, z. B. durch Sequenzierungstechnologien (RNA-Seq, DNA-Seq, etc.) oder Experimentaldaten (z. B. Protein-Interaktionsdaten).

  • Beispiel: RNA-Seq liefert Rohdaten in Form von FASTQ-Dateien.

2. Datenqualitätssicherung (QC):

  • Beschreibung: Überprüfung und Filtern von schlechten Daten zur Sicherstellung der Datenqualität. Tools wie FastQC werden verwendet, um Sequenzierfehler und unvollständige Reads zu identifizieren.

  • Beispiel: Trimming von Adaptersequenzen und Entfernen von Reads mit niedriger Qualität.

3. Datenvorverarbeitung:

  • Beschreibung: Bereinigung und Vorbereitung der Daten für die Analyse. Dies kann das Entfernen von Fehlern, das Trimmen von Reads oder das Zusammenfügen von Paired-End Reads beinhalten.

  • Beispiel: Adapter-Sequenzen aus den Reads entfernen und nur hochqualitative Reads behalten.

4. Mapping/Alignment:

  • Beschreibung: Ausrichtung der Sequenzierungsdaten auf eine Referenzsequenz (z. B. Genom oder Transkriptom). Dies hilft dabei, die Positionen und Strukturen der genetischen Variationen zu identifizieren.

  • Beispiel: Verwendung von Tools wie BWA, Bowtie2 oder HISAT2, um kurze DNA-RNA-Sequenzen auf eine Referenz zuzuordnen.

5. Quantifizierung:

  • Beschreibung: Bestimmung der Genexpression oder genetischen Varianten (z. B. SNPs, Indels). Häufig verwendet werden RPKM, FPKM oder TPM zur Messung der Transkriptmenge.

  • Beispiel: Berechnung der Transkriptmengen in RNA-Seq-Daten nach Alignment.

6. Normalisierung:

  • Beschreibung: Anpassung der Daten, um systematische Verzerrungen durch Sequenziertiefe und Probenunterschiede zu vermeiden, sodass die Daten zwischen Proben vergleichbar sind.

  • Beispiel: Anwendung von TPM oder RPKM, um Unterschiede in der Sequenzierungstiefe zwischen Proben auszugleichen.

7. Datenanalyse:

  • Beschreibung: Statistische Analyse der quantifizierten Daten, um genetische Muster zu erkennen, wie z. B. Differenzielle Genexpression oder Mutationen zwischen verschiedenen Bedingungen.

  • Beispiel: Verwendung von DESeq2 oder edgeR zur Analyse der differenziellen Genexpression in RNA-Seq-Daten.

8. Interpretation der Ergebnisse:

  • Beschreibung: Interpretation der analysierten Daten in biologischer Hinsicht, z. B. Krankheitsassoziationen oder biologische Mechanismen.

  • Beispiel: Identifikation von mutierten Genen, die mit Krebs oder anderen Erbkrankheiten in Verbindung stehen.

9. Visualisierung:

  • Beschreibung: Darstellung der Daten in grafischer Form (z. B. Heatmaps, Volcano Plots oder PCA-Diagramme), um Muster und signifikante Ergebnisse zu verdeutlichen.

  • Beispiel: Heatmaps zur Visualisierung von Differentiellen Genexpressionen in verschiedenen Proben.


Author

Luise U.

Informationen

Zuletzt geändert