Was macht Corpus()?
- Erstellt ein Textkorpus-Objekt aus Dokumenten./Syntax: Corpus(VectorSource(texts))/Beispiel: Corpus(VectorSource(c("Text A","Text B"))) → Korpus mit zwei Dokumenten.
Was macht tm_map()?
- Wendet Transformationen auf alle Dokumente eines Korpus an./Syntax: tm_map(corpus, content_transformer(FUN))/Beispiel: tm_map(corpus, content_transformer(tolower)) → alles klein geschrieben.
Was macht removeWords()?
- Entfernt Stoppwörter aus Texten./Syntax: tm_map(corpus, removeWords, stopwords("en"))/Beispiel: tm_map(corpus, removeWords, stopwords("de")) → häufige Wörter entfernt.
Was macht stripWhitespace()?
- Entfernt überflüssige Leerzeichen./Syntax: tm_map(corpus, stripWhitespace)/Beispiel: „Text mit Lücken“ → „Text mit Lücken“.
Was macht wordStem()?
- Reduziert Wörter auf ihre Stammform (Stemming)./Syntax: wordStem(words, language="en")/Beispiel: wordStem(c("running","runs")) → „run“.
Was macht DocumentTermMatrix()?
- Erstellt Matrix: Zeilen = Dokumente, Spalten = Wörter./Syntax: DocumentTermMatrix(corpus)/Beispiel: DocumentTermMatrix(corpus) → Häufigkeitstabelle.
Was macht as.matrix()?
- Wandelt DocumentTermMatrix in Standard-Matrix um./Syntax: as.matrix(dtm)/Beispiel: as.matrix(DocumentTermMatrix(corpus)) → numerische Matrix.
Was macht weightTfIdf()?
- Wandelt Term-Frequenzen in TF-IDF-Gewichte um./Syntax: weightTfIdf(dtm)/Beispiel: weightTfIdf(DocumentTermMatrix(corpus)) → TF-IDF-Werte statt Rohhäufigkeit.
Was macht inspect()?
- Zeigt Inhalt einer Term-Dokument-Matrix an./Syntax: inspect(dtm[1:5,1:5])/Beispiel: inspect(dtm) → Vorschau der Wortmatrix.
Was macht findFreqTerms()?
- Findet häufig vorkommende Wörter in Matrix./Syntax: findFreqTerms(dtm, lowfreq=5)/Beispiel: Wörter mit mindestens 5 Vorkommen.
Was macht findAssocs()?
- Findet assoziierte Wörter basierend auf Korrelationen./Syntax: findAssocs(dtm, "wort", corlimit=0.8)/Beispiel: Wörter, die stark mit „tumor“ korrelieren.
Was macht removePunctuation()?
- Entfernt Satzzeichen aus Texten./Syntax: tm_map(corpus, removePunctuation)/Beispiel: „Hallo, Welt!“ → „Hallo Welt“.
Was macht tolower()?
- Wandelt Text in Kleinbuchstaben um./Syntax: tolower("Text")/Beispiel: tolower("Test") → „test“.
Was macht proxy::dist()?
- Berechnet Distanzmatrix zwischen Dokumenten./Syntax: proxy::dist(x, method="euclidean")/Beispiel: proxy::dist(tfidf_matrix, "cosine") → Cosine-Distanz.
Was macht simil()?
- Berechnet Ähnlichkeiten (z. B. Cosine, Jaccard)./Syntax: simil(x, method="cosine")/Beispiel: simil(tfidf_matrix) → Ähnlichkeitsmatrix.
Was macht adist()?
- Berechnet Levenshtein-Distanz zwischen Strings./Syntax: adist("text1","text2")/Beispiel: adist("color","colour") → 1.
Was macht textTinyR::JACCARD_DICE()?
- Berechnet Jaccard- oder Dice-Ähnlichkeit sehr effizient./Syntax: JACCARD_DICE(list1, list2, method="jaccard")/Beispiel: textTinyR::JACCARD_DICE(list("A","B"), list("A","C")).
Was macht wordcloud()?
- Visualisiert Wortfrequenzen grafisch./Syntax: wordcloud(words, freq, max.words=100)/Beispiel: wordcloud(names(freq), freq) → Häufige Wörter größer dargestellt.
Was macht tidytext::unnest_tokens()?
- Zerlegt Text in Tokens (z. B. Wörter)./Syntax: unnest_tokens(tbl, output="word", input="text")/Beispiel: unnest_tokens(df, "word", "text") → Token-Tabelle.
Was macht textclean::replace_contraction()?
- Ersetzt verkürzte Formen durch vollständige Wörter./Syntax: replace_contraction(text)/Beispiel: „don't“ → „do not“.
Was macht SnowballC::wordStem()?
- Führt Stemming in mehreren Sprachen durch./Syntax: wordStem(words, language="de")/Beispiel: „laufend“ → „lauf“.
Was macht cosine_similarity() in Python?
- Berechnet Kosinus-Ähnlichkeit zwischen Vektoren./Syntax: cosine_similarity([x],[y])[0][0]/Beispiel: cosine_similarity(tfidf[0], tfidf[1]) → Ähnlichkeitswert zwischen zwei Dokumenten.
Was macht TfidfVectorizer()?
- Wandelt Texte in TF-IDF-Vektoren um./Syntax: TfidfVectorizer(stop_words='english').fit_transform(corpus)/Beispiel: erzeugt Sparse-Matrix mit TF-IDF-Werten.
Was macht CountVectorizer()?
- Erstellt Rohfrequenzmatrix (Bag-of-Words)./Syntax: CountVectorizer().fit_transform(corpus)/Beispiel: matrix mit Wortzählungen pro Dokument.
Was macht edit_distance()?
- Berechnet Levenshtein-Distanz in Python./Syntax: edit_distance("text1","text2")/Beispiel: edit_distance("kitten","sitting") → 3.
Was macht jensenshannon()?
- Berechnet Jensen–Shannon-Distanz zwischen Verteilungen./Syntax: jensenshannon(P, Q)/Beispiel: jensenshannon([0.1,0.9],[0.8,0.2]) → Divergenzwert.
Was macht set() in Python?
- Wandelt Liste in Menge für Jaccard-Vergleich um./Syntax: len(set(a)&set(b))/len(set(a)|set(b))/Beispiel: zwei Texte → Jaccard-Similarity.
Was macht nltk.corpus.stopwords()?
- Enthält vordefinierte Stoppwortlisten für viele Sprachen./Syntax: stopwords.words("english")/Beispiel: Entfernt häufige Funktionswörter aus Text.
Was macht PorterStemmer()?
- Führt Stemming im Englischen durch (NLTK)./Syntax: PorterStemmer().stem(word)/Beispiel: „running“ → „run“.
Was macht WordNetLemmatizer()?
- Führt Lemmatisierung basierend auf Wortart durch./Syntax: WordNetLemmatizer().lemmatize(word, pos='v')/Beispiel: „went“ → „go“.
Was macht cosine_similarity(tfidf_matrix)?
- Berechnet Ähnlichkeitsmatrix für mehrere Dokumente./Beispiel: cosine_similarity(tfidf_matrix) → paarweise Cosine-Werte aller Texte.
Was macht sklearn.metrics.pairwise_distances()?
- Berechnet Distanzmatrix (verschiedene Metriken)./Syntax: pairwise_distances(X, metric="cosine")/Beispiel: paarweise Dokumentdistanzen.
Was macht pandas.DataFrame()?
- Speichert TF-IDF- oder Ähnlichkeitsdaten tabellarisch./Syntax: pd.DataFrame(tfidf.toarray(), columns=vectorizer.get_feature_names_out())/Beispiel: TF-IDF-Tabelle zur Analyse.
Was macht numpy.linalg.norm()?
- Berechnet Vektorlänge für Normalisierung./Syntax: x/np.linalg.norm(x)/Beispiel: Normierung vor Cosine Similarity.
Was macht seaborn.heatmap()?
- Visualisiert Ähnlichkeits- oder Distanzmatrix./Syntax: sns.heatmap(matrix)/Beispiel: heatmap(tfidf_similarity) → Clusterstrukturen sichtbar.
Was macht sklearn.cluster.KMeans()?
- Führt Clustering auf TF-IDF-Daten aus./Syntax: KMeans(n_clusters=3).fit(tfidf_matrix)/Beispiel: Cluster-Zuordnung für Dokumente.
Was macht matplotlib.pyplot.scatter()?
- Zeichnet Dokumente nach zwei Hauptkomponenten (z. B. PCA)./Syntax: plt.scatter(x, y, c=labels)/Beispiel: Visualisierung von Textclustern.
Was macht saveRDS()?
- Speichert R-Objekt (z. B. TF-IDF-Matrix) auf Datenträger./Syntax: saveRDS(obj, "file.rds")/Beispiel: Wiederverwendung ohne Neuberechnung.
Was macht readRDS()?
- Lädt gespeichertes R-Objekt wieder ein./Syntax: readRDS("file.rds")/Beispiel: tfidf <- readRDS("tfidf_matrix.rds").
Was macht head()?
- Zeigt erste Zeilen einer Matrix oder Tabelle./Syntax: head(x)/Beispiel: head(as.matrix(tfidf)) → Vorschau der TF-IDF-Werte.
Last changed2 months ago