Was macht Text-Analytics aus? Wann findet es Anwendung?
Auch den Abstand von Wörtern oder Termen kann man messen. Anwendung findet diese beispielsweise bei Verwendung des Operators LIKE in SQL-Statements oder bei der Wahl von Korrekturvorschlägen in Textverarbeitungsprogrammen:
Beispiel
Ist ein Wort nicht im Wörterbuch enthalten, so werden im Rahmen der Rechtschreibprüfung die Wörter des Wörterbuchs zur Korrektur vorgeschlagen, die dem unbekanntem Wort am ähnlichsten sind. Es liegt auf der Hand, dass ein einfacher Buchstabenvergleich beginnend beim ersten Buchstaben wenig hilfreich ist, wenn schon der erste Buchstabe falsch geschrieben ist. So würde für das unbekannte Wort Zuto wohl nicht das Wort Auto als ähnliches Wort gewählt.
Mithilfe der hier vorgestellten Abstandsmaße für Wörter können also auch Ähnlichkeiten zwischen Worten berechnet werden. Somit könnten auch nominale Feature in Clustering-Algorithmen verwendet werden - es müsste lediglich eine der hier vorgestellten Distanzfunktionen verwendet werden
Welche Methoden zur Messung von Wortähnlichkeiten existieren?
Hamming-Distanz
Jaro-Winkler-Distanz
Jaro-Ähnlichkeit
Jaro-Winkler-Ähnlichkeit
Erläutere das Vorgehen der Hamming-Distanz?
Die Hamming-Distanz ist zunächst für Zeichenketten gleicher Länge definiert. Es werden die korrespondierenden Buchstaben (gleiche Position innerhalb des jeweiligen Wortes) betrachte. Identische Buchstaben tragen 0 und verschiedene buchstaben 1 zur Distanz bei.
Soll die Distanz zweier Zeichenketten unterschiedlicher Länge bestimmt werden, so trägt die Längendifferenz der beiden Zeichenketten ebenfalls zur Distanz bei.
Erläutere die Jaro-Ähnlichkeit
—> Die Jaro-Ähnlichkeit basiert auf der Länge der beiden Zeichenketten s1 und s2 . Ferner wird die Anzahl übereinstimmender Zeichen m und die Hälfte der Anzahl an Transpositionen t berücksichtigt.
Übereinstimmung
Zwei Zeichen in den beiden Zeichenketten gelten dann als übereinstimmend, wenn sie identisch sind und ihre jeweilige Position innerhalb der Zeichenketten sich höchstens um
Zeichen unterscheidet.
Transposition
Als Transpositionen werden die Zeichen verstanden, die übereinstimmende Zeichen sind, deren Reihenfolge jedoch in beiden Zeichenketten unterschiedlich ist.
Erläutere die Jaro-Winkler-Ähnlichkeit
Erläutere die Jaro-Winkler-Distanz
Last changed2 years ago