Aufgabe: Arbeiten mit Strings in Python
Initialisierung eines Strings
Indexierung (negativ, slicing)
Strings sind unveränderbar (immutable)
Multiline String
Vergleich von Strings
Iteration
String Length
Methoden
Herausforderungen beim Umgang mit natürlicher Sprache
Mehrwortgruppen und Komposita
z.B. information retrieval, bundeskanzleramt
Unterschiedliche Formen des gleichen Worts
z.B. house/houses, laufen/laufe/lief
Synonyme und Polyseme
z.B. bank, present, automobile/car
Tokenisierung: Aufteilung der Dokumente in einer Kollektion
Granularität von Dokumenten hängt von der Anwendung ab und musss vor Indexierung festgelegt werden
oft gibt es eine Übereinstimmung zwischen Input und Dokument
Webseiten in der Websuche
E-Mail mit ihren Anhängen in der E-Mail Suche
Tweets in twitter Search
News in Newspaper
Zuletzt geändertvor 2 Jahren