Text-Analytics mit Vektorraummodell

by Michelle S.

Wo liegt die Herausforderung bei der Analyse von Texten?

Die Herausforderung bei der Ananlyse von Texten liegt in der Struktur dieser Daten:

Sie sind

hochgradig unstrukturiert,
zusammenhangslos und
unterliegen häufig starkten syntaktischen und semantischen Vorgaben.

Im Gegensatz zu typischen Featurevektoren, die an anderen Stellen in der Data-Analytics verwendet werden, um Daten zu repärsentieren, enthalten Texte oft eine deutlich größere Anzahl an Worten oder gar Zeichen, als die sonst üblichen Merkmalsräume Dimensionen haben.

Was ist ein Term?

Im einfachsten Fall entspricht ein Term einem Wort eines Textes (Dokuments). Durch das unten gezeigte Preprocessing können Worte aber zur Identifizierung von Identitäten "vereinfacht" werden. Beispielsweise könnten die Worte Information , informieren , Informatik und Informatiker*in in denselben Term info überführt werden. So kann eine inhaltliche Ähnlichkeit der Worte einfacher erkannt werden.

(Nach Umwandlung:

-Jeder Vektor hat so viele Komponenten, wie die Dokumentensammlung Terme hat. Jede Komponente repräsentiert demnach einen Term.)

Was ist ein Dokument?

Hier sind zusammenhängende Texte gemeint, die in beliebigem Vormat gespeichert werden können. Beispielsweise könnten dies Text-Dateien, Word-Dateien, E-Books, E-Mails oder Server-Log-Dateien sein.

(Nach Umwandlung:

Die Anzahl der Vektoren entspricht der Anzahl an Dokumenten. Jedes Dokument wird also in einen Vektor überführt. )

Was ist eine Dokumentensammlung?

Hierunter wird eine Menge von Dokumenten verstanden, die zusammen analysiert werden, um beispielsweise ähnliche Dokumente zu identifizieren.

Dies können sein

E-Mails im Posteingang,
Tweets mit einem bestimmten Hashtag oder
Redemanuskripte in der Manuskript-Sammlung des Deutschen Bundestags

(Nach Umwandlung:

-Jeder Vektor hat so viele Komponenten, wie die Dokumentensammlung Terme hat. Jede Komponente repräsentiert demnach einen Term.)

Was sind die relevanten Aufgaben von Text-Analytics?

das Identifizieren relevanter Dokumente zu bestimmten Themen
das Clustering aller Dokumente entsprechend ihrer Inhalte
das Finden von Dokumenten, die inhaltlich ähnlich zu einem gegebenen Dokument sind.

Wie werden Dokumentensammlungen in eine vektorielle Darstellung überführt?

Es wird in diesem Notebook gezeigt, wie Dokumentensammlungen in eine vektorielle Darstellung überführt werden können. Die entsprechende Verarbeitung besteht aus vier Schritten:

Preprocessing - Vorbereitung für die Weiterverwarbeitung
Bestimmung der Termhäufigkeit (term frequency) und
Bestimmung der Inversen Dokumentenhäufigkeit (inverse document frequency)
Erstellen der Vektoren aus Gewichten

Was ist das Bag of Words- Modell?

Es liegt nahe, dass derartige Fragestellungen nicht mit einer einfachen String-Suche in Dokumenten realisiert werden kann. Wenn beispielsweise Dokumente zum Thema Data-Analytics gesucht werden, in den Dokumenten aber stets der Begriff Data-Science verwendet wird, so liefert die Suche keine Treffer.

Das für derartige Fragestellungen häufig verwendet Modell nennt sich Bag of words. Die Verarbeitung basiert auf der Überführung jedes Dokuments in einen nummerischen Featurevektor und die entsprechende Weiterverarbeitung.

Erläutere den ersten Schritt der Überführung ins Vektorraummodell

1) Preprocessing

Im Folgenden werden die einzelnen Schritte des Preprocessings manuell durchgeführt. Später werden diese durch Verwendung geeigneter Bibliotheken zusammnegefasst.

1. Lowercasing

—> Umwandlung aller Buchstaben in Kleinbuchstaben

2. Tokenization

—> Reduzieren der Dokumente auf eine Menge von Tokens. Es werden dazu die Leerzeichen entfernt und somit Satzzusammenhänge aufgebrochen. Hier wird die Bezeichnung des Modells bag of words klar:

Das Ergebnis dieses Schritts ist eine Menge von Tokens, deren Reihenfolge ab hier keine Relevanz mehr hat.

3. "Sonderzeichen" entfernen

—>Alle für das Text-Mining irrelvanten Zeichen (Satzzeichen, Ziffern usw.) werden entfernt.

4. Stopword Removal

—>Entfernen nicht aussagekräftiger Wörter z. B. Artikel, Pronomen oder Konjunktionen

5. Stemming oder Lemmatization

a) Stemming

—> Es werden beim Stemming Wörter auf ihren Wortstamm zurückgeführt. Dazu werden Prä- und Postfixe entfernt. Aus Berechnungen, berechnen oder berechnete wird beispielsweise berechn.

b) Lemmatization

Lemmatization ist als Alternative zu Stemming zu sehen, bei der beispielsweise Konjugation und Deklination rückgängig gemacht werden bzw. Verben auf den Infinitiv oder Substantive auf den Nominativ Singular zurückgeführt werden.

Beispielsweise wird aus interessanter interessant und aus beinhaltet wird beinhalten.

Für Lemmatization ist tiefgreifende grammatikalische Kenntnisse der Sprache notwendig.

6. Reduktion

—> Zum Abschluss des Preprocessings wird die Anzahl der Terme reduziert

Bag of Words -> Die Terme aller Dokumente werden in einer Menge zusammengeführt.
Duplikate werden entfernt.
Ggf. Reduktion auf Terme, die in mindestens n Dokumenten vorkommen.

Worauf basieren die nummerischen Werte der Komponenten?

Der nummerische Wert der Komponenten basiert auf

der Häufigkeit, in der ein Term im jeweiligen Dokument vor kommt (Term Frequenciy, tf) sowie
der Anzahl an Dokumenten, in denen der Term vorkommt (inverse Dokument Frequency, idf).

Erläutere den zweiten Schritt der Überführung ins Vektorraummodell

2) Term Frequency

Die Termfrequenz tf(d,t) beschreibt die Häufigkeit, mit der ein Term t in einem Dokument d vorkommt.

Sie gibt also die Relevanz des Terms innerhalb des Dokuments an.

Es können relative oder absolute Häufigkeit verwendet werden.

—>Für jeden Term t wird für jedes Dokument d eine Termhäufigkeit (tf) ermittelt.

—> Bei n Dokumenten und m Termen gibt es also n*m tf-Werte.

—> Daher ist die Termfrequenz eine Funktion von Term und einzelnem Dokument tf(d,f)

Erläutere den dritten Schritt der Überführung ins Vektorraummodell

3) Inverse Document Frequency (idf)

Die Termfrequenz alleine ist noch nicht aussagekräftig für die Relevanz eines Terms in einem Dokument bzw. in der Dokumentensammlung. Denn so würden ja die am häufigsten Verwendeten Termen hoch gewichtet. Trotz Entfernung der Stopwords könnten das aber immer noch irrelvante Worte sein.

Aus diesem Grunde wird auch die inverse Dokumentenfrequenz (inverse document frequency, idf) betrachtet. Diese ist der Logarithmus des Kehrwerts des Anteils der Dokumente nt, die den Term t enthalten, an der gesamten Dokumentensammlung N.

—> Für jeden Term wird für die gesamte Dokumentensammlung ein Wert für die inverse Dokumentenfrequenz (idf) ermittelt.

—>Bei n Dokumenten und m Termen gibt es also m idf-Werte.

—>Daher ist die inverse Dokumentenfrequenz eine Funktion des Terms idf(t)

Erläutere den vierten Schritt der Überführung ins Vektorraummodell

4) Vektoren

Jedes Dokument wird durch einen Vektor repräsentiert, der so viele Komponenten w(d,t)(weight) beinhaltet, wie durch das Preprocessing Terme identifiziert wurden.

Die Werte der einzelnen Komponenten ergeben sich aus dem dem Produkt der Termfrequenz tf(d,t) des Terms mit der inversen Dokumentenhäufigkeit idf(t) des Terms.