Buffl

4. Natural Language Processing (NLP)

M
by Mathäus

Praktischer Exkurs: Textvorverarbeitung von Kundenrezensionen

Ein Unternehmen möchte ein System zur automatischen Analyse von Kundenrezensionen entwickeln. Damit die Kundenrezensionen von weiteren Algorithmen entsprechend verarbeitet werden können, müssten die Texte zunächst vorverarbeitet werden. Die oben erläuterten Schritte werden daher nun anhand des folgenden Satzes erläutert:

„Ich liebe dieses Produkt! Es ist unglaublich nützlich und funktioniert perfekt. Ich werde es definitiv weiterempfehlen.“

Bei der Tokenisierung anhand von Leerzeichen würde dieser Satz zu folgenden Tokens zerlegt werden:

[„Ich“, „liebe“, „dieses“, „Produkt!“, „Es“, „ist“, „unglaublich“, „nützlich“, „und“, „funktioniert“, „perfekt.“, „Ich“, „werde“, „es“, „definitiv“, „weiterempfehlen.“]

Ein Problem bei dieser einfachen Art der Tokenisierung ist, dass die Satzzeichen jeweils an den Wörtern hängen bleiben. Hier könnten beispielsweise

reguläre Ausdrücke

Abhilfe schaffen.

Im nächsten Schritt werden nun Stoppwörter entfernt. Das anschließende Ergebnis könnte wie folgt aussehen:

[„liebe“, „Produkt“, „unglaublich“, „nützlich“, „funktioniert“, „perfekt“, „werde“, „definitiv“, „weiterempfehlen“]

Anschließend wird die Wortliste mit Stemming auf die Wortstämme reduziert:

[„lieb“, „produkt“, „unglaublich“, „nutz“, „funktion“, „perfekt“, „werd“, „definitiv“, „weiterempfehl“]

Während Stemming die Liste auf die Wortstämme reduziert, würden mittels Lemmatisierung die Worte auf ihre Grundform (Lemma) zurückgeführt werden:

[„lieben“, „Produkt“, „unglaublich“, „nützlich“, „funktionieren“, „perfekt“, „werden“, „definitiv“, „weiterempfehlen“]

Nach dieser Vorverarbeitung können insbesondere häufig verwendete Begriffe in positiven oder negativen Kundenrezensionen identifiziert oder Kundenmeinungen gezielt analysiert werden.






Author

Mathäus

Information

Last changed