10-ProtScriber Praxis

by David S.

Was macht blastp()?

- Führt Protein-Protein-Similarity-Suche mit BLAST aus./Syntax: system("blastp -query query.faa -db swissprot -out results.txt")/Beispiel: blastp gegen SwissProt für funktionelle Annotation.

Was macht read.table()?

- Liest tabellarische BLAST-Ergebnisse ein./Syntax: read.table("blast_results.txt", header=TRUE, sep="\t")/Beispiel: blast <- read.table("blast_out.txt") → DataFrame der Treffer.

Was macht subset()?

- Filtert Treffer nach Kriterien (z. B. E-Wert, Bit-Score)./Syntax: subset(blast, evalue < 1e-5)/Beispiel: relevante Protein-Treffer behalten.

Was macht grep()/grepl()?

- Sucht nach Mustern (Regex) in Zeichenketten./Syntax: grep("domain", x, value=TRUE)/Beispiel: Filtere uninformative Beschreibungen mit Regex.

Was macht gsub()?

- Ersetzt Textstellen per regulärem Ausdruck./Syntax: gsub("uncharacterized", "", desc)/Beispiel: entfernt uninformative Schlagwörter aus Annotation.

Was macht strsplit()?

- Zerlegt Zeichenketten in Wortvektoren./Syntax: strsplit(desc, " ")/Beispiel: Kandidatenbeschreibung in Wörter aufteilen.

Was macht table()?

- Zählt Wortfrequenzen im gesamten Korpus./Syntax: table(words)/Beispiel: Häufigkeitsstatistik über alle Referenzwörter.

Was macht sort()?

- Sortiert Frequenzen oder Scores./Syntax: sort(freq, decreasing=TRUE)/Beispiel: häufigste Wörter zuerst.

Was macht merge()?

- Kombiniert BLAST-Ergebnisse mit Frequenz- oder Score-Tabellen./Syntax: merge(blast, freq_table, by="word")/Beispiel: BLAST-Annotation + Wortfrequenzen.

Was macht transform()?

- Fügt neue Spalten durch Berechnung hinzu./Syntax: transform(df, overlap=((qend-qstart+1)+(send-sstart+1))/(qlen+slen))/Beispiel: Overlap zwischen Query und Subject berechnen.

Was macht aggregate()?

- Berechnet Mittelwerte oder Summen pro Gruppe./Syntax: aggregate(score~id, data=df, mean)/Beispiel: Mittel-Score je Protein.

Was macht scale()?

- Zentriert Wortfrequenzen zur „centered frequencies“-Funktion./Syntax: scale(freq)/Beispiel: Werte auf Mittelwert 0, Varianz 1 bringen.

Was macht centered.frequencies()?

- Bewertet Wörter nach zentrierten Häufigkeiten (selbst definierte Funktion)./Syntax: centered.frequencies(word_freqs)/Beispiel: häufige Wörter → hohe Scores.

Was macht centered.inverse.inf.cntnt()?

- Bewertet Wörter nach inverser Informationsdichte./Syntax: centered.inverse.inf.cntnt(word_freqs)/Beispiel: seltene Wörter stärker bestraft, häufige betont.

Was macht polynomial()?

- Bewertet Wort-Scores nach Polynom-Funktion (Experiment)./Syntax: polynomial(freq, degree=2)/Beispiel: quadratische Gewichtung.

Was macht apply()?

- Führt Scoringfunktion zeilenweise auf Wortlisten an./Syntax: apply(word_matrix, 1, sum)/Beispiel: Summen-Score je Phrase.

Was macht intersect()?

- Bestimmt gemeinsame Wörter zwischen Referenz und Kandidat./Syntax: intersect(ref_words, cand_words)/Beispiel: Konsensphrase bilden.

Was macht paste()?

- Fügt Wort-Subsets in Originalreihenfolge zusammen./Syntax: paste(words_subset, collapse=" ")/Beispiel: menschlich lesbare Kurzbeschreibung generieren.

Was macht order()?

- Sortiert nach Score zur Auswahl bester Phrase./Syntax: order(phrases$score, decreasing=TRUE)/Beispiel: höchste Scoring-Phrase bestimmen.

Was macht fisher.test()?

- Test auf Über- oder Unterrepräsentation (ORA)./Syntax: fisher.test(matrix(c(a,b,c,d),2,2))/Beispiel: prüft, ob bestimmte GO-Terme signifikant häufiger vorkommen.

Was macht phyper()?

- Hypergeometrische Wahrscheinlichkeit (für ORA)./Syntax: phyper(k-1, M, N-M, n, lower.tail=FALSE)/Beispiel: p-Wert für Overrepresentation.

Was macht GO.db / AnnotationDbi()?

- Zugriff auf Gene Ontology (GO)-Term-Hierarchie./Syntax: GO.db::GOTERM[["GO:0008150"]]@Term/Beispiel: Beschreibung biologischer Prozesse abrufen.

Was macht biomaRt::getBM()?

- Holt Annotationsdaten (Gene ↔ GO/InterPro)./Syntax: getBM(attributes, filters, values, mart)/Beispiel: Zuordnung von Protein-IDs zu GO-Terms.

Was macht interproscan.sh()?

- Tool zur Domänenannotation (CLI)./Syntax: system("interproscan.sh -i input.faa -f TSV -o output.tsv")/Beispiel: InterPro-Domains für Proteinvorhersage.

Was macht read.delim()?

- Liest InterPro/MapMan-TSV-Dateien ein./Syntax: read.delim("interpro.tsv")/Beispiel: Tabellenimport für Ontologieanalyse.

Was macht table() bei GO/InterPro-Terms?

- Zählt Termhäufigkeiten für Overrepresentation-Analysen./Syntax: table(go_terms)/Beispiel: häufigste funktionelle Kategorien ermitteln.

Was macht barplot()?

- Zeigt Häufigkeit oder −log₁₀(p-Wert) von ORA-Terms grafisch./Syntax: barplot(-log10(p_values))/Beispiel: signifikante GO-Terms hervorheben.

Was macht ggplot() in Kombination mit ORA?

- Visualisiert signifikante Begriffe aus Fisher-Test./Syntax: ggplot(df, aes(x=Term, y=-log10(p))) + geom_col()/Beispiel: Balkendiagramm der Überrepräsentationen.

Was macht write.csv()?

- Exportiert finale HRD-Ergebnisse oder ORA-Resultate./Syntax: write.csv(results, "prot_scriber_output.csv")/Beispiel: Speichern der generierten Kurzbeschreibungen.

Was macht saveRDS()/readRDS()?

- Speichert/Lädt Zwischenergebnisse im R-Format./Syntax: saveRDS(obj,"file.rds")

Was macht dplyr::filter()/mutate()/group_by()?

- Daten-Transformationen im tidyverse-Stil./Syntax: df %>% filter(score>0.5) %>% group_by(protein) %>% summarize(mean_score=mean(score))/Beispiel: Scoring-Ergebnisse bereinigen.

Was macht stringr::str_detect()/str_replace_all()?

- Komfortable Regex-Operationen aus stringr./Syntax: str_detect(desc, "domain")

Was macht ggplot2::geom_point()/geom_text()?

- Visualisierung von Score- oder Performance-Vergleichen./Syntax: ggplot(df,aes(x=CF,y=IC))+geom_point()+geom_text(label=ID)/Beispiel: CF vs. IC Scores vergleichen.

Was macht confusionMatrix()?

- Vergleicht vorhergesagte und Referenzbeschreibungen./Syntax: caret::confusionMatrix(pred, ref)/Beispiel: Evaluation der HRD-Vorhersage.

Join Course

Preview

Author

David S.

Information

Last changed
5 months ago

Report course