Was macht blastp()?
- Führt Protein-Protein-Similarity-Suche mit BLAST aus./Syntax: system("blastp -query query.faa -db swissprot -out results.txt")/Beispiel: blastp gegen SwissProt für funktionelle Annotation.
Was macht read.table()?
- Liest tabellarische BLAST-Ergebnisse ein./Syntax: read.table("blast_results.txt", header=TRUE, sep="\t")/Beispiel: blast <- read.table("blast_out.txt") → DataFrame der Treffer.
Was macht subset()?
- Filtert Treffer nach Kriterien (z. B. E-Wert, Bit-Score)./Syntax: subset(blast, evalue < 1e-5)/Beispiel: relevante Protein-Treffer behalten.
Was macht grep()/grepl()?
- Sucht nach Mustern (Regex) in Zeichenketten./Syntax: grep("domain", x, value=TRUE)/Beispiel: Filtere uninformative Beschreibungen mit Regex.
Was macht gsub()?
- Ersetzt Textstellen per regulärem Ausdruck./Syntax: gsub("uncharacterized", "", desc)/Beispiel: entfernt uninformative Schlagwörter aus Annotation.
Was macht strsplit()?
- Zerlegt Zeichenketten in Wortvektoren./Syntax: strsplit(desc, " ")/Beispiel: Kandidatenbeschreibung in Wörter aufteilen.
Was macht table()?
- Zählt Wortfrequenzen im gesamten Korpus./Syntax: table(words)/Beispiel: Häufigkeitsstatistik über alle Referenzwörter.
Was macht sort()?
- Sortiert Frequenzen oder Scores./Syntax: sort(freq, decreasing=TRUE)/Beispiel: häufigste Wörter zuerst.
Was macht merge()?
- Kombiniert BLAST-Ergebnisse mit Frequenz- oder Score-Tabellen./Syntax: merge(blast, freq_table, by="word")/Beispiel: BLAST-Annotation + Wortfrequenzen.
Was macht transform()?
- Fügt neue Spalten durch Berechnung hinzu./Syntax: transform(df, overlap=((qend-qstart+1)+(send-sstart+1))/(qlen+slen))/Beispiel: Overlap zwischen Query und Subject berechnen.
Was macht aggregate()?
- Berechnet Mittelwerte oder Summen pro Gruppe./Syntax: aggregate(score~id, data=df, mean)/Beispiel: Mittel-Score je Protein.
Was macht scale()?
- Zentriert Wortfrequenzen zur „centered frequencies“-Funktion./Syntax: scale(freq)/Beispiel: Werte auf Mittelwert 0, Varianz 1 bringen.
Was macht centered.frequencies()?
- Bewertet Wörter nach zentrierten Häufigkeiten (selbst definierte Funktion)./Syntax: centered.frequencies(word_freqs)/Beispiel: häufige Wörter → hohe Scores.
Was macht centered.inverse.inf.cntnt()?
- Bewertet Wörter nach inverser Informationsdichte./Syntax: centered.inverse.inf.cntnt(word_freqs)/Beispiel: seltene Wörter stärker bestraft, häufige betont.
Was macht polynomial()?
- Bewertet Wort-Scores nach Polynom-Funktion (Experiment)./Syntax: polynomial(freq, degree=2)/Beispiel: quadratische Gewichtung.
Was macht apply()?
- Führt Scoringfunktion zeilenweise auf Wortlisten an./Syntax: apply(word_matrix, 1, sum)/Beispiel: Summen-Score je Phrase.
Was macht intersect()?
- Bestimmt gemeinsame Wörter zwischen Referenz und Kandidat./Syntax: intersect(ref_words, cand_words)/Beispiel: Konsensphrase bilden.
Was macht paste()?
- Fügt Wort-Subsets in Originalreihenfolge zusammen./Syntax: paste(words_subset, collapse=" ")/Beispiel: menschlich lesbare Kurzbeschreibung generieren.
Was macht order()?
- Sortiert nach Score zur Auswahl bester Phrase./Syntax: order(phrases$score, decreasing=TRUE)/Beispiel: höchste Scoring-Phrase bestimmen.
Was macht fisher.test()?
- Test auf Über- oder Unterrepräsentation (ORA)./Syntax: fisher.test(matrix(c(a,b,c,d),2,2))/Beispiel: prüft, ob bestimmte GO-Terme signifikant häufiger vorkommen.
Was macht phyper()?
- Hypergeometrische Wahrscheinlichkeit (für ORA)./Syntax: phyper(k-1, M, N-M, n, lower.tail=FALSE)/Beispiel: p-Wert für Overrepresentation.
Was macht GO.db / AnnotationDbi()?
- Zugriff auf Gene Ontology (GO)-Term-Hierarchie./Syntax: GO.db::GOTERM[["GO:0008150"]]@Term/Beispiel: Beschreibung biologischer Prozesse abrufen.
Was macht biomaRt::getBM()?
- Holt Annotationsdaten (Gene ↔ GO/InterPro)./Syntax: getBM(attributes, filters, values, mart)/Beispiel: Zuordnung von Protein-IDs zu GO-Terms.
Was macht interproscan.sh()?
- Tool zur Domänenannotation (CLI)./Syntax: system("interproscan.sh -i input.faa -f TSV -o output.tsv")/Beispiel: InterPro-Domains für Proteinvorhersage.
Was macht read.delim()?
- Liest InterPro/MapMan-TSV-Dateien ein./Syntax: read.delim("interpro.tsv")/Beispiel: Tabellenimport für Ontologieanalyse.
Was macht table() bei GO/InterPro-Terms?
- Zählt Termhäufigkeiten für Overrepresentation-Analysen./Syntax: table(go_terms)/Beispiel: häufigste funktionelle Kategorien ermitteln.
Was macht barplot()?
- Zeigt Häufigkeit oder −log₁₀(p-Wert) von ORA-Terms grafisch./Syntax: barplot(-log10(p_values))/Beispiel: signifikante GO-Terms hervorheben.
Was macht ggplot() in Kombination mit ORA?
- Visualisiert signifikante Begriffe aus Fisher-Test./Syntax: ggplot(df, aes(x=Term, y=-log10(p))) + geom_col()/Beispiel: Balkendiagramm der Überrepräsentationen.
Was macht write.csv()?
- Exportiert finale HRD-Ergebnisse oder ORA-Resultate./Syntax: write.csv(results, "prot_scriber_output.csv")/Beispiel: Speichern der generierten Kurzbeschreibungen.
Was macht saveRDS()/readRDS()?
- Speichert/Lädt Zwischenergebnisse im R-Format./Syntax: saveRDS(obj,"file.rds")
Was macht dplyr::filter()/mutate()/group_by()?
- Daten-Transformationen im tidyverse-Stil./Syntax: df %>% filter(score>0.5) %>% group_by(protein) %>% summarize(mean_score=mean(score))/Beispiel: Scoring-Ergebnisse bereinigen.
Was macht stringr::str_detect()/str_replace_all()?
- Komfortable Regex-Operationen aus stringr./Syntax: str_detect(desc, "domain")
Was macht ggplot2::geom_point()/geom_text()?
- Visualisierung von Score- oder Performance-Vergleichen./Syntax: ggplot(df,aes(x=CF,y=IC))+geom_point()+geom_text(label=ID)/Beispiel: CF vs. IC Scores vergleichen.
Was macht confusionMatrix()?
- Vergleicht vorhergesagte und Referenzbeschreibungen./Syntax: caret::confusionMatrix(pred, ref)/Beispiel: Evaluation der HRD-Vorhersage.
Last changed2 months ago