Was ist das Ziel von Prot-Scriber?
- Automatische Generierung kurzer, informativer Proteinbeschreibungen aus Homologiedaten./Nutzt BLAST-Ergebnisse, Wortstatistiken und Ontologien.
Was ist funktionelle Annotation?
- Zuordnung biologischer Funktion zu Sequenzen basierend auf Ähnlichkeit oder bekannten Motiven./Erfolgt oft per BLAST, InterPro oder GO.
Was ist Homologie?
- Ähnlichkeit aufgrund gemeinsamer Abstammung./Wird durch Sequenzvergleich (z. B. BLAST) erkannt.
Was bedeutet Query vs. Subject in BLAST?
- Query = gesuchte Sequenz, Subject = Datenbanksequenz./Vergleich ergibt E-Wert, Bit-Score und Identität.
Was ist der E-Wert bei BLAST?
- Erwartete Zufallstrefferzahl bei gegebener Scorehöhe./Je kleiner, desto signifikanter (typ. < 1e-5).
Was ist der Bit-Score?
- Normalisierter Score zur Vergleichbarkeit zwischen BLAST-Runs./Höher = bessere Trefferqualität.
Was ist eine Overrepresentation-Analyse (ORA)?
- Statistischer Test, ob bestimmte GO-Term häufiger auftreten als zufällig erwartet./Typisch per Fisher-Test oder hypergeometrischer Verteilung.
Was ist Gene Ontology (GO)?
- Hierarchische Ontologie mit drei Ebenen: Biological Process, Molecular Function, Cellular Component./Ermöglicht standardisierte Funktionsbeschreibung.
Was ist InterPro?
- Datenbank für Protein-Domänen und Funktionsmotive (vereint Pfam, SMART usw.)./Liefert struktur-basierte Annotationen.
Was ist centered frequencies?
- Bewertungsverfahren für Wörter in Proteinbeschreibungen, die auf Abweichung vom Mittel basieren./Häufige Wörter werden positiv, extrem seltene negativ gewichtet.
Was ist inverse information content (centered IC)?
- Maß für Informationsgehalt eines Wortes (−log P(w))./Wird zentriert und invertiert zur Scoring-Normalisierung.
Was bedeutet polynomial scoring?
- Experimentelle gewichtete Bewertung von Wörtern nach Polynom-Funktion (z. B. Quadrat der Frequenz)./Hebt mittlere Häufigkeiten hervor.
Was ist Overlap (Query–Subject)?
- Anteil der überlappenden Aminosäurenbereiche zweier Sequenzen./Dient zur Trefferqualität und Redundanzkontrolle.
Was ist Regex-Filtering?
- Nutzung regulärer Ausdrücke zum Entfernen uninformativer Texte (z. B. „uncharacterized protein“)./Wichtig zur Automatisierung der Annotation.
Was ist Centered Frequency Score (CF)?
- Standardisierte Wortfrequenz nach Zentrierung auf Gesamtkorpus./Dient zur quantitativen Bewertung von Begriffen.
Was ist Information Content (IC)?
- Maß für die Seltenheit und damit Informationsstärke eines Begriffes./Selten = hoch informativ.
Was ist das Prinzip der Kombination von CF und IC?
- CF misst Verbreitung, IC Informationsgehalt → Kombination liefert balancierten Score für wichtige Wörter.
Wann ist Overrepresentation Analyse sinnvoll?
- Wenn man wissen will, ob eine Kategorie (GO-Term, Pathway) überproportional in einer Gruppe auftaucht.
Wann ist BLAST ausreichend für Annotation?
- Wenn klare Homologietreffer mit E-Wert < 1e-10 vorliegen und funktionelle Domänen bekannt sind.
Wann sollte man InterPro/GO hinzuziehen?
- Wenn BLAST-Treffer nicht informativ oder uneinheitlich sind./Ergänzt funktionelle und strukturelle Information.
Wann sind Fisher-Tests für ORA ungeeignet?
- Bei sehr kleinen Zahlen oder wenn Abhängigkeiten zwischen Termen bestehen./Alternative: Permutation oder GSEA.
Wann ist Text-Scoring robust?
- Wenn Korpus groß genug und Wortfrequenzen stabil geschätzt werden.
Wann zeigt hoher IC-Wert echte Relevanz?
- Nur wenn das Wort biologisch bedeutungsvoll und nicht zufällig selten ist.
Wann kann centered frequencies Fehler erzeugen?
- Wenn zu kleine Korpora oder viele gleich häufige unrelevante Wörter vorliegen.
Wann wird ORA interpretiert?
- p < 0.05 → Kategorie signifikant überrepräsentiert./Erfordert FDR-Korrektur bei mehreren Termen.
Wann sind GO- und InterPro-Analysen komplementär?
- GO = Funktionsebene, InterPro = Domänenstruktur./Beide zusammen geben vollständigeres Bild.
Wann kann Regex-Filtering problematisch sein?
- Wenn relevante Begriffe zufällig die entfernten Wörter enthalten./Regex immer testen und schrittweise anwenden.
Wann ist BLAST-E-Wert nicht vergleichbar?
- Wenn Datenbankgröße oder Suchparameter abweichen./Immer innerhalb gleicher DB vergleichen.
Wann nutzt man zentrierte Scores statt absolute Frequenzen?
- Wenn Texte unterschiedliche Länge oder unterschiedliche Wortzahl haben.
Wann zeigt ORA-Heatmap Clusterbildung?
- Wenn mehrere signifikante GO-Term ähnliche Funktion oder Prozessgruppe teilen.
Zuletzt geändertvor 2 Monaten