What´s the advantage of using the Seurat R package for single cell RNA sequencing?
-scRNA-seq collects gene expression data from each individual cell
-unlike bulk RNA sequencing where cell data is merged, obscuring individual differences
-standartized end to end workflow
-excellent data intergration capabilities
-clustering methods
-customizable visualization (UMAP)
—>It gives you a powerful, standardized, and highly flexible framework for processing and interpreting scRNA-seq data, with strong visualization and integration tools
scRNA-Seq erfasst Genexpressionsdaten von einzelnen Zellen
Im Gegensatz zu Bulk-RNA-Seq, bei dem Zellinformationen zusammengefasst werden und individuelle Unterschiede verdeckt bleiben
Standardisierter End-to-End-Workflow
Hervorragende Möglichkeiten zur Datenintegration
Clustering-Methoden
Anpassbare Visualisierung (z. B. UMAP)
→ Bietet ein leistungsfähiges, standardisiertes und sehr flexibles Framework zur Verarbeitung und Interpretation von scRNA-Seq-Daten, mit starken Visualisierungs- und Integrationswerkzeugen
What´s the use of quality control in scRNA seq? Name a marker for the quality of the cells
implementing stringent QC measures is essential for distinguishing genuine biological signals from technical artifacts
-ensuring data integrity
-removal of low quality cells
-enhancing reproducability
Marker: mitochondrial genes <5% (quality criteria)
Die Implementierung strenger Qualitätskontrollen (QC) ist entscheidend, um echte biologische Signale von technischen Artefakten zu unterscheiden
Sicherstellung der Datenintegrität
Entfernung von Zellen niedriger Qualität
Verbesserung der Reproduzierbarkeit
Marker: mitochondriale Gene < 5 % (Qualitätskriterium)
Why is normalization after quality control also crutial
-ensures that the data comparisons are meaningful
-It corrects for variations in gene expression that arise from technical differences rather than biological factors
-allowing accurate analysis and interpretation of the true biological differences between cells
Stellt sicher, dass Datenvergleiche aussagekräftig sind
Korrigiert für Variationen in der Genexpression, die durch technische Unterschiede und nicht durch biologische Faktoren entstehen
Ermöglicht eine genaue Analyse und Interpretation der tatsächlichen biologischen Unterschiede zwischen Zellen
Why is identifying variable genes necessary before doing the Principle component analysis?
By pinpointing variable features, we ensure that PCA captures the most biologically relevant signals, which are the variations that truly differentiate the cells
—>identifying variable features fine-tunes our dataset, preparing it for accurate and meaningful high-dimensional analyses
Durch das Identifizieren variabler Merkmale stellen wir sicher, dass PCA die biologisch relevantesten Signale erfasst, also die Variationen, die die Zellen tatsächlich unterscheiden
→ Die Bestimmung variabler Merkmale verfeinert unseren Datensatz und bereitet ihn für genaue und aussagekräftige hochdimensionale Analysen vor
What´s the use of a UMAP?
-UMAP (Uniform Manifold Approximation and Projection) to visualize our clustered data
-transforming data into 2D representation
-see the different cell groups in our dataset and understand how they relate to each other, effectively confirming the distinct cell populations we’ve identified through clustering
UMAP (Uniform Manifold Approximation and Projection) zur Visualisierung unserer geclusterten Daten
Transformation der Daten in eine 2D-Darstellung
Ermöglicht die Darstellung der verschiedenen Zellgruppen in unserem Datensatz und das Verständnis ihrer Beziehungen zueinander, wodurch die durch Clustering identifizierten, unterschiedlichen Zellpopulationen effektiv bestätigt werden
What are Counts and Reads in single cell RNA seq data?
In single-cell RNA-seq, counts are the number of sequencing reads assigned to each gene in each cell, representing the gene’s expression level in that cell. They form the primary gene-by-cell matrix for downstream analysis
Reads are the short sequences obtained from sequencing cDNA fragments
Bei Single-Cell RNA-Seq sind Counts die Anzahl der Sequenzier-Lesungen (Reads), die jedem Gen in jeder Zelle zugeordnet werden und die Expressionsstärke dieses Gens in der jeweiligen Zelle darstellen. Sie bilden die primäre Gen-gegen-Zelle-Matrix für die weitere Analyse.
Reads sind die kurzen Sequenzen, die beim Sequenzieren von cDNA-Fragmenten erhalten werden.
Why do a cell type annotation?
-assigns biological identities to single cells or clusters in scRNA-seq data
-essential for understanding sample composition, detecting rare cell types, comparing conditions, interpreting function, integrating references, and enabling downstream analyses
Weist einzelnen Zellen oder Zell-Clustern in scRNA-Seq-Daten biologische Identitäten zu
Wesentlich für das Verständnis der Probenzusammensetzung, die Erkennung seltener Zelltypen, den Vergleich von Bedingungen, die Interpretation von Funktionen, die Integration von Referenzdaten und die Ermöglichung von Downstream-Analysen
What´s the purpose of data mining?
Literature review—> systematic method
—>exttraction of key information of large datasets and finding meaningfull associations
Literaturübersicht → systematische Methode
→ Extraktion von Schlüsselinformationen aus großen Datensätzen und Erkennen sinnvoller Zusammenhänge
Explain the typical workflow of datamining
Finding database—>downloading datasets-->data curation—>identify patterns—>draw conclusion
Datenbank finden → Datensätze herunterladen → Datenaufbereitung → Muster erkennen → Schlussfolgerungen ziehen
What are the challenges of datamining?
Challenges: Data quality, Integration, Interpretability, Privacy and ethics
Herausforderungen: Datenqualität, Integration, Interpretierbarkeit, Datenschutz und ethische Aspekte
What are the applications?
Drug discovery: finding new drug candidates/ repurposing
Personalized medicine: tailor treatment to individual patients
Arzneimittelentdeckung: Finden neuer Wirkstoffkandidaten / Neunutzung bestehender Medikamente
Personalisierte Medizin: Behandlung auf den einzelnen Patienten zuschneiden
Name some tools and databases for datamining
Databases: NCBI (Pubmed, Pubchem, MeSH), TTD
Tools: R, Python
Wie ist der workflow einer single cell RNA seq mit Seurat?
Einlesen der Count-Matrix
QC: Filtern nach mitochondrialen Genen, nFeature, nCount
Normalisierung (SCTransform oder LogNormalize)
Variable Gene bestimmen
Skalieren
PCA
Clustering (FindNeighbors, FindClusters)
UMAP/t-SNE
Marker-Gene finden
Anmerkung/Annotation der Cluster
Optional: Integration, DE-Analyse, Trajektorien, Velocity
Zuletzt geändertvor 10 Tagen