Buffl

Text-Analytics mit Vektorraummodell

MS
by Michelle S.

Erläutere den ersten Schritt der Überführung ins Vektorraummodell

1) Preprocessing

Im Folgenden werden die einzelnen Schritte des Preprocessings manuell durchgeführt. Später werden diese durch Verwendung geeigneter Bibliotheken zusammnegefasst.


1. Lowercasing

—> Umwandlung aller Buchstaben in Kleinbuchstaben


2. Tokenization

—> Reduzieren der Dokumente auf eine Menge von Tokens. Es werden dazu die Leerzeichen entfernt und somit Satzzusammenhänge aufgebrochen. Hier wird die Bezeichnung des Modells bag of words klar:

Das Ergebnis dieses Schritts ist eine Menge von Tokens, deren Reihenfolge ab hier keine Relevanz mehr hat.


3. "Sonderzeichen" entfernen

—>Alle für das Text-Mining irrelvanten Zeichen (Satzzeichen, Ziffern usw.) werden entfernt.


4. Stopword Removal

—>Entfernen nicht aussagekräftiger Wörter z. B. Artikel, Pronomen oder Konjunktionen


5. Stemming oder Lemmatization

a) Stemming

—> Es werden beim Stemming Wörter auf ihren Wortstamm zurückgeführt. Dazu werden Prä- und Postfixe entfernt. Aus Berechnungen, berechnen oder berechnete wird beispielsweise berechn.

b) Lemmatization

Lemmatization ist als Alternative zu Stemming zu sehen, bei der beispielsweise Konjugation und Deklination rückgängig gemacht werden bzw. Verben auf den Infinitiv oder Substantive auf den Nominativ Singular zurückgeführt werden.

Beispielsweise wird aus interessanter interessant und aus beinhaltet wird beinhalten.

Für Lemmatization ist tiefgreifende grammatikalische Kenntnisse der Sprache notwendig.


6. Reduktion

—> Zum Abschluss des Preprocessings wird die Anzahl der Terme reduziert

  • Bag of Words -> Die Terme aller Dokumente werden in einer Menge zusammengeführt.

  • Duplikate werden entfernt.

  • Ggf. Reduktion auf Terme, die in mindestens n Dokumenten vorkommen.


Author

Michelle S.

Information

Last changed