Was bedeutet Text Similarity?
- Maß für inhaltliche oder semantische Ähnlichkeit zwischen zwei Texten oder Dokumenten./Grundlage für Aufgaben wie Suche, Klassifikation oder Clustering.
Was ist der Unterschied zwischen Ähnlichkeit und Distanz?
- Ähnlichkeit misst Gleichheit (hoch = ähnlich),/Distanz misst Unterschied (niedrig = ähnlich).
Wie können Texte mathematisch dargestellt werden?
- Als Vektoren im Merkmalsraum, wobei jede Dimension einem Wort oder Merkmal entspricht (Bag-of-Words-Modell).
Was ist das Bag-of-Words-Modell?
- Repräsentiert Texte durch Wortfrequenzen, ignoriert Reihenfolge der Wörter./Einfach, aber verlustbehaftet für Syntax und Kontext.
Was bedeutet Sparsity in Textvektoren?
- Viele Einträge im Dokument-Wort-Matrix sind null, da jedes Dokument nur wenige Wörter des gesamten Vokabulars enthält.
Was ist Term Frequency (TF)?
- Anzahl, wie oft ein Wort in einem Dokument vorkommt./TF = count(w, d)/|d|.
Was beschreibt Zipf’s Law?
- Rang-Frequenz-Gesetz: wenige Wörter sind extrem häufig, viele Wörter kommen sehr selten vor./f(w) ∝ 1/rang(w).
Was ist Inverse Document Frequency (IDF)?
- Maß für Informationsgehalt eines Wortes./IDF(w) = log(N / df(w)) mit N = Gesamtzahl der Dokumente, df = Dokumente mit Wort w.
Was ist der Zweck von TF-IDF?
- Kombination aus Häufigkeit im Dokument (TF) und Seltenheit im Korpus (IDF)./Betont seltene, aber charakteristische Wörter.
Was ist die Intuition hinter IDF?
- Wörter, die in vielen Dokumenten vorkommen, tragen wenig Information (z. B. „und“, „ist“)./Seltene Wörter sind informativer.
Was ist Information Content (IC)?
- I(w) = −log₂ P(w)./Je seltener ein Wort, desto höher sein Informationsgehalt.
Was ist der Zusammenhang zwischen IDF und Information Content?
- Beide beruhen auf −log(1/P)./IDF ≈ IC, wenn P(w) = df(w)/N.
Was ist die Shannon-Entropie?
- H = −Σ pᵢ log₂ pᵢ./Misst mittleren Informationsgehalt einer Verteilung (Ungewissheit).
Was beschreibt ein Dokumentenvektor?
- Vektor, dessen Einträge Gewichte (z. B. TF-IDF) für jedes Wort enthalten./Dient als numerische Textrepräsentation.
Was bedeutet Normalisierung von Textvektoren?
- Anpassung der Vektorlänge auf 1 (Einheitsvektor)./Ermöglicht faire Vergleichbarkeit bei unterschiedlichen Textlängen.
Was ist die Kosinus-Ähnlichkeit?
- cos(θ) = (x·y)/(‖x‖‖y‖)./Misst Winkelähnlichkeit zweier Vektoren, unabhängig von ihrer Länge.
Was bedeutet ein hoher Kosinus-Wert?
- cos(θ) ≈ 1 → sehr ähnlich,/cos(θ) ≈ 0 → unähnlich.
Was ist die euklidische Distanz bei Textvektoren?
- d(x,y) = √Σ (xᵢ − yᵢ)²./Misst absolute Unterschiede in Wortgewichten (empfindlich gegenüber Längenunterschieden).
Was ist Jaccard Similarity?
- J(A,B) = |A ∩ B| / |A ∪ B|./Vergleicht Mengenüberlappung, ignoriert Häufigkeiten.
Was ist Edit Distance (Levenshtein)?
- Minimale Anzahl von Operationen (Einfügen, Löschen, Ersetzen), um ein Wort in ein anderes umzuwandeln./Misst Zeichen- oder Wortähnlichkeit.
Was ist Longest Common Substring (LCS)?
- Länge der längsten identischen Zeichenkette in zwei Texten./Misst lokale strukturelle Ähnlichkeit.
Was ist die Kullback-Leibler-Divergenz (KL)?
- Dₖₗ(P||Q) = Σ P(x) log(P(x)/Q(x))./Misst Informationsverlust bei Approximation von P durch Q (asymmetrisch).
Was ist die Jensen-Shannon-Divergenz (JSD)?
- Symmetrisierte, stabilisierte Variante der KL-Divergenz./JSD(P,Q) = ½ (Dₖₗ(P||M) + Dₖₗ(Q||M)) mit M = (P+Q)/2.
Was sind die Eigenschaften von JSD?
- Immer ≥ 0, symmetrisch, endlich definiert → geeignet als Distanzmaß zwischen Textverteilungen.
Was ist der Unterschied zwischen JSD und Kosinus-Ähnlichkeit?
- JSD basiert auf Wahrscheinlichkeiten (Verteilungen),/Kosinus auf geometrischen Winkeln.
Was ist Feature Selection in Textanalyse?
- Auswahl relevanter Wörter oder Merkmale, z. B. nach TF-IDF, Varianz oder Entropie.
Was ist Stopword-Entfernung?
- Entfernen häufig vorkommender, bedeutungsloser Wörter (z. B. „der“, „und“)./Erhöht Signifikanz aussagekräftiger Terme.
Was ist Stemming?
- Reduktion von Wörtern auf Wortstamm (z. B. „laufend“ → „lauf“)./Verringert Dimensionalität und verbessert Vergleichbarkeit.
Was ist Lemmatisierung?
- Reduktion auf Grundform unter Berücksichtigung grammatischer Regeln./Genauer als Stemming.
Was ist der Unterschied zwischen Stemming und Lemmatisierung?
- Stemming → einfache Abschneidung von Endungen,/Lemmatisierung → lexikalisch korrekt (z. B. Wörterbuch).
Was ist die Bag-of-Words-Matrix (Document-Term-Matrix)?
- Zeilen = Dokumente, Spalten = Wörter, Einträge = Häufigkeit oder Gewicht (z. B. TF-IDF).
Was ist Cosine Distance?
- 1 − cos(θ)./Wandelt Ähnlichkeit in Distanzmaß um.
Was ist die Anwendung von Text Similarity?
- Dokumentensuche, Clustering, Plagiatserkennung, Topic Modeling, Synonymanalyse, Sentiment-Vergleich.
Was ist semantische Ähnlichkeit?
- Bezieht Bedeutung (Kontext) ein, nicht nur Wortform./Oft mit Wort-Embeddings oder Kontextmodellen (z. B. Word2Vec, BERT) berechnet.
Was ist syntaktische Ähnlichkeit?
- Bezieht sich auf Zeichen- oder Wortstruktur (z. B. LCS, Edit Distance)./Erkennt formale Übereinstimmung.
Was ist der Unterschied zwischen semantischer und syntaktischer Ähnlichkeit?
- Semantisch = Bedeutungsebene,/Syntaktisch = Form- bzw. Strukturähnlichkeit.
Was ist Topic Modeling?
- Unüberwachtes Verfahren zur Entdeckung von Themen (Latent Dirichlet Allocation, LSA) in Textkorpora.
Was ist der Zusammenhang zwischen PCA und Text Similarity?
- PCA kann auf TF-IDF-Matrizen angewendet werden → Reduktion auf Hauptthemenachsen.
Was ist die Herausforderung bei großen Textkorpora?
- Hohe Dimensionalität, Sparsity, Polysemie (Mehrdeutigkeit), Rechenaufwand.
Wann ist TF-IDF besser als reine Häufigkeit (TF)?
- Wenn häufige, unspezifische Wörter (z. B. „und“, „ist“) das Ergebnis verzerren würden./TF-IDF hebt seltene, aber aussagekräftige Wörter hervor.
Wann ist TF ausreichend?
- Wenn man Texte gleichen Themas oder kurzer Länge vergleicht und seltene Wörter keine entscheidende Rolle spielen.
Wann ist IDF wichtig?
- In großen Korpora, wo Wörter unterschiedlich oft vorkommen./Unterdrückt häufige, irrelevante Terme.
Wann ist die euklidische Distanz ungeeignet?
- Wenn Textlängen stark variieren./Größere Dokumente wirken automatisch „weiter entfernt“.
Wann ist Kosinus-Ähnlichkeit besser als euklidische Distanz?
- Wenn Textlängen unterschiedlich sind./Misst nur Richtung, nicht Betrag.
Wann ist Jaccard Similarity sinnvoll?
- Für binäre oder Mengenvergleiche (z. B. Wortpräsenz statt Häufigkeit)./Einfach für kleine Textmengen.
Wann ist Edit Distance sinnvoll?
- Bei Zeichen- oder Wortvergleichen (z. B. Tippfehler, Varianten von Namen)./Beispiel: „color“ vs. „colour“.
Wann ist Longest Common Substring (LCS) nützlich?
- Wenn gemeinsame Textsegmente (z. B. Plagiate) identifiziert werden sollen.
Wann ist KL-Divergenz sinnvoll?
- Wenn man Informationsunterschiede zwischen Wahrscheinlichkeitsverteilungen analysieren will (z. B. Themenverteilungen)./Nur bei P,Q > 0 definiert.
Wann ist Jensen–Shannon-Divergenz besser als KL?
- Wenn stabile, symmetrische Distanz benötigt wird./Gut geeignet für Textvergleiche mit Nullwahrscheinlichkeiten.
Wann ist die Shannon-Entropie hilfreich?
- Um Vielfalt oder Gleichverteilung von Wörtern in einem Text zu messen./Hohe Entropie → viele verschiedene Wörter.
Wann ist Information Content nützlich?
- Um zu bewerten, wie informativ ein Wort ist./Seltene Wörter haben hohen Informationsgehalt.
Wann ist Stopword-Entfernung wichtig?
- Wenn häufige Funktionswörter keine semantische Bedeutung tragen./Erhöht Aussagekraft der Merkmale.
Wann sollte man nicht alle Stopwords entfernen?
- Wenn sie für semantische Struktur wichtig sind (z. B. Negationen wie „nicht“).
Wann ist Stemming sinnvoll?
- Wenn man Such- oder Clusteringaufgaben durchführt und Wortformen vereinheitlichen will.
Wann ist Lemmatisierung besser als Stemming?
- Wenn sprachliche Genauigkeit und Grammatik erhalten bleiben sollen./Z. B. für Sentiment- oder Syntaxanalyse.
Wann sollte man Texte normalisieren (Längenanpassung)?
- Immer bei Vektormaßen wie Cosine oder TF-IDF, um faire Vergleichbarkeit sicherzustellen.
Wann ist Cosine Distance robuster?
- Wenn Dokumente unterschiedliche Längen haben oder TF-IDF skaliert ist./Wird in fast allen modernen IR-Systemen verwendet.
Wann ist Jaccard Distance robuster?
- Wenn man Wortmengen statt Häufigkeiten vergleichen möchte (z. B. Keyword-Sets).
Wann ist KL-Divergenz ungeeignet?
- Wenn Wahrscheinlichkeiten 0 vorkommen → führt zu unendlichen Werten./Glättung (Smoothing) nötig.
Wann ist JSD vorzuziehen?
- Wenn stabile, endliche Distanz zwischen Textverteilungen benötigt wird (z. B. Themenmodelle, Word Embeddings).
Wann erkennt man Redundanz in TF-Daten?
- Wenn häufige Wörter überall hohe Werte haben → geringe Diskriminationskraft.
Wann erkennt man relevante Features in TF-IDF?
- Hohe TF-IDF-Werte → seltene, aber für das Dokument typische Wörter.
Wann kann PCA auf TF-IDF-Daten helfen?
- Wenn man Cluster oder Themen visuell darstellen will (Reduktion auf 2D).
Wann ist Text Similarity für Clustering geeignet?
- Wenn Texte thematisch verwandt sind → Ähnlichkeitsmatrix als Input für hierarchisches oder k-Means-Clustering.
Wann ist Cosine Similarity in der Praxis Standard?
- Bei semantischen Suchsystemen, NLP-Vergleichen und Vektorraumanalysen./Skalierungsunabhängig, leicht interpretierbar.
Wann zeigt hohe Kosinus-Ähnlichkeit in Dokumentenvergleich echte thematische Nähe?
- Wenn beide Dokumente viele ähnliche Terme mit vergleichbarem TF-IDF-Gewicht teilen.
Wann ist Jaccard Similarity zu grob?
- Wenn Wortreihenfolge oder Gewichtung wichtig ist → verliert feine Unterschiede.
Wann ist KL/JSD aussagekräftiger als Cosine?
- Wenn man Wahrscheinlichkeitsverteilungen (z. B. Themen, Wortwahrscheinlichkeiten) vergleicht statt reine Frequenzen.
Wann sollte man TF-IDF vor Topic Modeling anwenden?
- Um seltene Wörter zu betonen und sehr häufige Wörter zu unterdrücken → stabilere Themen.
Wann ist Feature Selection wichtig?
- Wenn Korpus sehr groß und Matrix extrem spärlich ist./Verkürzt Rechenzeit, verbessert Modellleistung.
Wann kann Text Similarity zur Qualitätsprüfung dienen?
- Bei Plagiaterkennung, Redundanzprüfung, Versionsvergleichen, Duplicate Detection.
Wann zeigt hohe Entropie irrelevante Streuung?
- Wenn viele zufällige oder unwichtige Wörter vorkommen → mögliche Rauschdaten.
Wann ist Text Similarity mit Embeddings besser als TF-IDF?
- Wenn Bedeutung statt bloßer Wortform wichtig ist (semantische Nähe, Synonyme)./Beispiel: Word2Vec, BERT.
Wann sind klassische TF-IDF-Ansätze besser als Embeddings?
- Bei kleineren Korpora, interpretierbaren Modellen oder knappen Rechenressourcen.
Wann sollte man Cosine Similarity kombinieren mit TF-IDF?
- Fast immer: TF-IDF gewichtet Wörter, Cosine misst Richtungsgleichheit./Standard in IR und NLP.
Wann sollte man Distanzmaße normalisieren?
- Wenn Werte aus unterschiedlichen Skalen oder Distributionsformen stammen (z. B. KL vs. Cosine).
Wann ist Text Similarity unzuverlässig?
- Bei sehr kurzen Texten (wenige Wörter) oder stark unterschiedlichen Vokabularen./Datenreichere Repräsentation nötig.
Wann kann Text Similarity in der Biologie eingesetzt werden?
- Vergleich von Publikationsabstracts, Genbeschreibungen, Funktionsannotationen oder Proteinbezeichnern.
Zuletzt geändertvor 2 Monaten