09-Text Similarity Theory

von David S.

Was bedeutet Text Similarity?

- Maß für inhaltliche oder semantische Ähnlichkeit zwischen zwei Texten oder Dokumenten./Grundlage für Aufgaben wie Suche, Klassifikation oder Clustering.

Was ist der Unterschied zwischen Ähnlichkeit und Distanz?

- Ähnlichkeit misst Gleichheit (hoch = ähnlich),/Distanz misst Unterschied (niedrig = ähnlich).

Wie können Texte mathematisch dargestellt werden?

- Als Vektoren im Merkmalsraum, wobei jede Dimension einem Wort oder Merkmal entspricht (Bag-of-Words-Modell).

Was ist das Bag-of-Words-Modell?

- Repräsentiert Texte durch Wortfrequenzen, ignoriert Reihenfolge der Wörter./Einfach, aber verlustbehaftet für Syntax und Kontext.

Was bedeutet Sparsity in Textvektoren?

- Viele Einträge im Dokument-Wort-Matrix sind null, da jedes Dokument nur wenige Wörter des gesamten Vokabulars enthält.

Was ist Term Frequency (TF)?

- Anzahl, wie oft ein Wort in einem Dokument vorkommt./TF = count(w, d)/|d|.

Was beschreibt Zipf’s Law?

- Rang-Frequenz-Gesetz: wenige Wörter sind extrem häufig, viele Wörter kommen sehr selten vor./f(w) ∝ 1/rang(w).

Was ist Inverse Document Frequency (IDF)?

- Maß für Informationsgehalt eines Wortes./IDF(w) = log(N / df(w)) mit N = Gesamtzahl der Dokumente, df = Dokumente mit Wort w.

Was ist der Zweck von TF-IDF?

- Kombination aus Häufigkeit im Dokument (TF) und Seltenheit im Korpus (IDF)./Betont seltene, aber charakteristische Wörter.

Was ist die Intuition hinter IDF?

- Wörter, die in vielen Dokumenten vorkommen, tragen wenig Information (z. B. „und“, „ist“)./Seltene Wörter sind informativer.

Was ist Information Content (IC)?

- I(w) = −log₂ P(w)./Je seltener ein Wort, desto höher sein Informationsgehalt.

Was ist der Zusammenhang zwischen IDF und Information Content?

- Beide beruhen auf −log(1/P)./IDF ≈ IC, wenn P(w) = df(w)/N.

Was ist die Shannon-Entropie?

- H = −Σ pᵢ log₂ pᵢ./Misst mittleren Informationsgehalt einer Verteilung (Ungewissheit).

Was beschreibt ein Dokumentenvektor?

- Vektor, dessen Einträge Gewichte (z. B. TF-IDF) für jedes Wort enthalten./Dient als numerische Textrepräsentation.

Was bedeutet Normalisierung von Textvektoren?

- Anpassung der Vektorlänge auf 1 (Einheitsvektor)./Ermöglicht faire Vergleichbarkeit bei unterschiedlichen Textlängen.

Was ist die Kosinus-Ähnlichkeit?

- cos(θ) = (x·y)/(‖x‖‖y‖)./Misst Winkelähnlichkeit zweier Vektoren, unabhängig von ihrer Länge.

Was bedeutet ein hoher Kosinus-Wert?

- cos(θ) ≈ 1 → sehr ähnlich,/cos(θ) ≈ 0 → unähnlich.

Was ist die euklidische Distanz bei Textvektoren?

- d(x,y) = √Σ (xᵢ − yᵢ)²./Misst absolute Unterschiede in Wortgewichten (empfindlich gegenüber Längenunterschieden).

Was ist Jaccard Similarity?

- J(A,B) = |A ∩ B| / |A ∪ B|./Vergleicht Mengenüberlappung, ignoriert Häufigkeiten.

Was ist Edit Distance (Levenshtein)?

- Minimale Anzahl von Operationen (Einfügen, Löschen, Ersetzen), um ein Wort in ein anderes umzuwandeln./Misst Zeichen- oder Wortähnlichkeit.

Was ist Longest Common Substring (LCS)?

- Länge der längsten identischen Zeichenkette in zwei Texten./Misst lokale strukturelle Ähnlichkeit.

Was ist die Kullback-Leibler-Divergenz (KL)?

- Dₖₗ(P||Q) = Σ P(x) log(P(x)/Q(x))./Misst Informationsverlust bei Approximation von P durch Q (asymmetrisch).

Was ist die Jensen-Shannon-Divergenz (JSD)?

- Symmetrisierte, stabilisierte Variante der KL-Divergenz./JSD(P,Q) = ½ (Dₖₗ(P||M) + Dₖₗ(Q||M)) mit M = (P+Q)/2.

Was sind die Eigenschaften von JSD?

- Immer ≥ 0, symmetrisch, endlich definiert → geeignet als Distanzmaß zwischen Textverteilungen.

Was ist der Unterschied zwischen JSD und Kosinus-Ähnlichkeit?

- JSD basiert auf Wahrscheinlichkeiten (Verteilungen),/Kosinus auf geometrischen Winkeln.

Was ist Feature Selection in Textanalyse?

- Auswahl relevanter Wörter oder Merkmale, z. B. nach TF-IDF, Varianz oder Entropie.

Was ist Stopword-Entfernung?

- Entfernen häufig vorkommender, bedeutungsloser Wörter (z. B. „der“, „und“)./Erhöht Signifikanz aussagekräftiger Terme.

Was ist Stemming?

- Reduktion von Wörtern auf Wortstamm (z. B. „laufend“ → „lauf“)./Verringert Dimensionalität und verbessert Vergleichbarkeit.

Was ist Lemmatisierung?

- Reduktion auf Grundform unter Berücksichtigung grammatischer Regeln./Genauer als Stemming.

Was ist der Unterschied zwischen Stemming und Lemmatisierung?

- Stemming → einfache Abschneidung von Endungen,/Lemmatisierung → lexikalisch korrekt (z. B. Wörterbuch).

Was ist die Bag-of-Words-Matrix (Document-Term-Matrix)?

- Zeilen = Dokumente, Spalten = Wörter, Einträge = Häufigkeit oder Gewicht (z. B. TF-IDF).

Was ist Cosine Distance?

- 1 − cos(θ)./Wandelt Ähnlichkeit in Distanzmaß um.

Was ist die Anwendung von Text Similarity?

- Dokumentensuche, Clustering, Plagiatserkennung, Topic Modeling, Synonymanalyse, Sentiment-Vergleich.

Was ist semantische Ähnlichkeit?

- Bezieht Bedeutung (Kontext) ein, nicht nur Wortform./Oft mit Wort-Embeddings oder Kontextmodellen (z. B. Word2Vec, BERT) berechnet.

Was ist syntaktische Ähnlichkeit?

- Bezieht sich auf Zeichen- oder Wortstruktur (z. B. LCS, Edit Distance)./Erkennt formale Übereinstimmung.

Was ist der Unterschied zwischen semantischer und syntaktischer Ähnlichkeit?

- Semantisch = Bedeutungsebene,/Syntaktisch = Form- bzw. Strukturähnlichkeit.

Was ist Topic Modeling?

- Unüberwachtes Verfahren zur Entdeckung von Themen (Latent Dirichlet Allocation, LSA) in Textkorpora.

Was ist der Zusammenhang zwischen PCA und Text Similarity?

- PCA kann auf TF-IDF-Matrizen angewendet werden → Reduktion auf Hauptthemenachsen.

Was ist die Herausforderung bei großen Textkorpora?

- Hohe Dimensionalität, Sparsity, Polysemie (Mehrdeutigkeit), Rechenaufwand.

Wann ist TF-IDF besser als reine Häufigkeit (TF)?

- Wenn häufige, unspezifische Wörter (z. B. „und“, „ist“) das Ergebnis verzerren würden./TF-IDF hebt seltene, aber aussagekräftige Wörter hervor.

Wann ist TF ausreichend?

- Wenn man Texte gleichen Themas oder kurzer Länge vergleicht und seltene Wörter keine entscheidende Rolle spielen.

Wann ist IDF wichtig?

- In großen Korpora, wo Wörter unterschiedlich oft vorkommen./Unterdrückt häufige, irrelevante Terme.

Wann ist die euklidische Distanz ungeeignet?

- Wenn Textlängen stark variieren./Größere Dokumente wirken automatisch „weiter entfernt“.

Wann ist Kosinus-Ähnlichkeit besser als euklidische Distanz?

- Wenn Textlängen unterschiedlich sind./Misst nur Richtung, nicht Betrag.

Wann ist Jaccard Similarity sinnvoll?

- Für binäre oder Mengenvergleiche (z. B. Wortpräsenz statt Häufigkeit)./Einfach für kleine Textmengen.

Wann ist Edit Distance sinnvoll?

- Bei Zeichen- oder Wortvergleichen (z. B. Tippfehler, Varianten von Namen)./Beispiel: „color“ vs. „colour“.

Wann ist Longest Common Substring (LCS) nützlich?

- Wenn gemeinsame Textsegmente (z. B. Plagiate) identifiziert werden sollen.

Wann ist KL-Divergenz sinnvoll?

- Wenn man Informationsunterschiede zwischen Wahrscheinlichkeitsverteilungen analysieren will (z. B. Themenverteilungen)./Nur bei P,Q > 0 definiert.

Wann ist Jensen–Shannon-Divergenz besser als KL?

- Wenn stabile, symmetrische Distanz benötigt wird./Gut geeignet für Textvergleiche mit Nullwahrscheinlichkeiten.

Wann ist die Shannon-Entropie hilfreich?

- Um Vielfalt oder Gleichverteilung von Wörtern in einem Text zu messen./Hohe Entropie → viele verschiedene Wörter.

Wann ist Information Content nützlich?

- Um zu bewerten, wie informativ ein Wort ist./Seltene Wörter haben hohen Informationsgehalt.

Wann ist Stopword-Entfernung wichtig?

- Wenn häufige Funktionswörter keine semantische Bedeutung tragen./Erhöht Aussagekraft der Merkmale.

Wann sollte man nicht alle Stopwords entfernen?

- Wenn sie für semantische Struktur wichtig sind (z. B. Negationen wie „nicht“).

Wann ist Stemming sinnvoll?

- Wenn man Such- oder Clusteringaufgaben durchführt und Wortformen vereinheitlichen will.

Wann ist Lemmatisierung besser als Stemming?

- Wenn sprachliche Genauigkeit und Grammatik erhalten bleiben sollen./Z. B. für Sentiment- oder Syntaxanalyse.

Wann sollte man Texte normalisieren (Längenanpassung)?

- Immer bei Vektormaßen wie Cosine oder TF-IDF, um faire Vergleichbarkeit sicherzustellen.

Wann ist Cosine Distance robuster?

- Wenn Dokumente unterschiedliche Längen haben oder TF-IDF skaliert ist./Wird in fast allen modernen IR-Systemen verwendet.

Wann ist Jaccard Distance robuster?

- Wenn man Wortmengen statt Häufigkeiten vergleichen möchte (z. B. Keyword-Sets).

Wann ist KL-Divergenz ungeeignet?

- Wenn Wahrscheinlichkeiten 0 vorkommen → führt zu unendlichen Werten./Glättung (Smoothing) nötig.

Wann ist JSD vorzuziehen?

- Wenn stabile, endliche Distanz zwischen Textverteilungen benötigt wird (z. B. Themenmodelle, Word Embeddings).

Wann erkennt man Redundanz in TF-Daten?

- Wenn häufige Wörter überall hohe Werte haben → geringe Diskriminationskraft.

Wann erkennt man relevante Features in TF-IDF?

- Hohe TF-IDF-Werte → seltene, aber für das Dokument typische Wörter.

Wann kann PCA auf TF-IDF-Daten helfen?

- Wenn man Cluster oder Themen visuell darstellen will (Reduktion auf 2D).

Wann ist Text Similarity für Clustering geeignet?

- Wenn Texte thematisch verwandt sind → Ähnlichkeitsmatrix als Input für hierarchisches oder k-Means-Clustering.

Wann ist Cosine Similarity in der Praxis Standard?

- Bei semantischen Suchsystemen, NLP-Vergleichen und Vektorraumanalysen./Skalierungsunabhängig, leicht interpretierbar.

Wann zeigt hohe Kosinus-Ähnlichkeit in Dokumentenvergleich echte thematische Nähe?

- Wenn beide Dokumente viele ähnliche Terme mit vergleichbarem TF-IDF-Gewicht teilen.

Wann ist Jaccard Similarity zu grob?

- Wenn Wortreihenfolge oder Gewichtung wichtig ist → verliert feine Unterschiede.

Wann ist KL/JSD aussagekräftiger als Cosine?

- Wenn man Wahrscheinlichkeitsverteilungen (z. B. Themen, Wortwahrscheinlichkeiten) vergleicht statt reine Frequenzen.

Wann sollte man TF-IDF vor Topic Modeling anwenden?

- Um seltene Wörter zu betonen und sehr häufige Wörter zu unterdrücken → stabilere Themen.

Wann ist Feature Selection wichtig?

- Wenn Korpus sehr groß und Matrix extrem spärlich ist./Verkürzt Rechenzeit, verbessert Modellleistung.

Wann kann Text Similarity zur Qualitätsprüfung dienen?

- Bei Plagiaterkennung, Redundanzprüfung, Versionsvergleichen, Duplicate Detection.

Wann zeigt hohe Entropie irrelevante Streuung?

- Wenn viele zufällige oder unwichtige Wörter vorkommen → mögliche Rauschdaten.

Wann ist Text Similarity mit Embeddings besser als TF-IDF?

- Wenn Bedeutung statt bloßer Wortform wichtig ist (semantische Nähe, Synonyme)./Beispiel: Word2Vec, BERT.

Wann sind klassische TF-IDF-Ansätze besser als Embeddings?

- Bei kleineren Korpora, interpretierbaren Modellen oder knappen Rechenressourcen.

Wann sollte man Cosine Similarity kombinieren mit TF-IDF?

- Fast immer: TF-IDF gewichtet Wörter, Cosine misst Richtungsgleichheit./Standard in IR und NLP.

Wann sollte man Distanzmaße normalisieren?

- Wenn Werte aus unterschiedlichen Skalen oder Distributionsformen stammen (z. B. KL vs. Cosine).

Wann ist Text Similarity unzuverlässig?

- Bei sehr kurzen Texten (wenige Wörter) oder stark unterschiedlichen Vokabularen./Datenreichere Repräsentation nötig.

Wann kann Text Similarity in der Biologie eingesetzt werden?

- Vergleich von Publikationsabstracts, Genbeschreibungen, Funktionsannotationen oder Proteinbezeichnern.

Beitreten

Vorschau

Author

David S.

Informationen

Zuletzt geändert
vor 4 Monaten

Kurs melden