Information Retrieval

Buffl

Data & Web Mining

von Denis T.

Was ist IR?

Prozess des Suchen und Findens von relevanten Informationen in großen Datenmengen

Mit was befasst sich IR alles?

Informations

-analyse
-organisation
-struktur
-speicherung
-suche
-abruf

Basisdefinitionen Textvorverarbeitung

Textkorpus: Menge aller vorhandenen Daten, auf denen das IR System arbeiten soll

Abfrage (Query): Eingabe textueller Schlagwörter, die als Fliter auf Textkorpus angewandet werden

Indexierung (Verschlagwortung): Speicherung aller relevanten Schlagwörter eines Textes in einem Index zur Zusammenfassung

Was ist ein Dokument

Kleinste Einheit, die von IR System zurückgegeben werden können

Probleme:

Mailverlauf —> Mehre einzelne Nachichten
Latex Dokumenten, dass aus mehreren .tex-Dateien besteht
Aufteilung aufgrund Dokumentengröße

—> Weiter verstreute Zusammenhänge erkennbar vs. Anzahl relevanter Ergebnisse

Token vs. Term

Token: Zusammengehörige Buchstabenfolge innerhalb eines Dokuments oder Query (z.B. aufteilen nach Worten)
Term: Verarbeitete und indexierte Einheiten von Informationen (Term in Index) —> Token ist Istanz eines Terms

Fehlerfälle bei Tokenisierung

Trennung bei Lehrzeichen führt dazu, dass New und York getrennt werden —> Falsche Ergebnisse (Ebenso bei Datum und Telefonnummern)
Fehelnde Trennung bei Sonderzeichen (state-of-the-art ja, aber nicht Hewlett-Packard)
Fehlende Trennung aufgrund mangelnder Leerzeichen (Kindergarten) —> Splitter Modul auf Basis eines vordefinierten Wortschatzes

Optimierung durch Stoppwortentfernung

Stopwort: Häufig auftretende Füllworte mit geringem Mehrwert für Suche
Vorteil: Geringerer Aufwand bei Indexierung & Reduktion der Komplexität
Nachteil: Je nach Query erhebliche Verschlechterung der Ergebnisse —> Trend geht zur Vollindexierung

Was versteht man unter Normalisierung

Gleichartige oder ähznliche Token sollen in gleichem Term resultieren
Umwandlung ähnlicher Token in generalisierte Terme gemäß festgelegter Normalisierungsregel

Normalisierungsregeln

Äquivalenzklassen (Nur normalisierte Terme werden in Index gespeichert, Abfrage wird ebenfalls normalisiert —> Geringer Speicherbedarf)
Query Expansion List (Während Indexierung wird Liste geführt, die Beziehungen zwischen nicht normalisierten Token erhält. Bei Query wird term aber auch expansions durchsucht —> Speicher und rechenintensiv, insbesondere bei großem Texkorpus)
Umgang mit Akzenten und Diakritika (Oft Ignorierung, korrekt: Prüfung mittels Wörterbuch ob Änerdung Schreibweise = Änderung Bedeutung)
Groß und Kleinschreibung (Problem Eigennamen —> Satzanfänge und Überschriften klein, aber Großschreibung innerhalb von Sätzen beibehalten
Synonyme und Abkürzungen (Basis: Thesaurus, welcher aber abhängig von Dokumentensprache, Oft Normalisierung von Synonymen per QEL)

Was sind schwierige Sonderfälle bei der Normalisierung?

Zahlen (Ausgeschrieben, Numerisch)
Datumsformate
Beträge (200,00€; 200-, 200 EURO)
Eigennamen
URLs
Asiatische Sprachen: Mischung verschieder Alphabete

Stemming und Lemmatisierung

Stemming: Reduzierung auf Wortstämme durch Entfernen nachgestellter Buchstaben (Einfaches regelbasiertes Verfahren zur Unterscheidung zwischen Affixen und Wortstamm)
Lemmatisierung: Wortschatzbasierte grammatikalische Analyse zur Ermittlung der Grundform eines Wortes

Porter Stemmer

Einfacher Stammformreduktionsalgorithmus für Englisch
Traversiert Text sequentiell, wendet dabei Regeln an wobei Suffixe miteinander ersetzt werden, wenn Bedingung zutrifft

Was können IR Modelle

Geben vor, wie Dokumente und Nuteranfragen verarbeitet werden
Enthalten Funktionalität um Relevanz der Dokumente für Nutzer zu ermitteln
Enthalten Funktionalität um Dokumente basierend auf Relveanz zu ranken

Was für IR-Modelle gibt es?

Boolean Model
Vextor Space Model
Porbabilistic Models
Relevance Feedback Models
ML based Models
DL based Models

Boolsche Modell

Basierend auf Assuagenlogik (AND, OR, NOT)
Term Dokument Matrix
Invertierter Index reduziert Dimensionalität (Speicherbedarf)
Vorteile:
- Einfachheit
- Präzision
- Deterministische Ergebnisse
Nachteile:
- Mangelnder Berücksichtigung Relevant
- Große Ergebnismengen

Vector Space Model

Dokumente und Suchanfragen als Vektoren in einem mehrdimensionalen Raum (Hede Dimenion entsprich einem Begriff oder Merkmal)
Messung der Ähnlichkeit via Kosinus-Ähnlichkeit
Ranking basierung auf Term Frequency oder Inverse Document Frequency (kann auch kombiniert werden)
Vorteile:
- Einfachheit
- Berechnung der Ähnlichkeit
Nachteile:
- Schlechte Darstellung von großen Dokumenten
- Skalierbarkeit

Probabalistic Models

Wahrscheinlichkeit berücksichtigen, dass ein User ein Dokument aufruft
Berücksichtigung von Unsicherheiten, Iterative Verbesserung der Relevanz-Schätzung
BM25 ist ein Beispiel, dass auf Tf und idf Relevanzentscheidung trifft
Vorteile
- Flexibilität
- Robustheit
- Interpretierbarkeit
Nachteile:
- Komplexität
- Abhängigkeit von Annahmen
- Kalibrierung

Relevance Feedback Models

Modell-Erweiterung basierend auf User Feedback
Feedbackformen:
- Explizites Feedback: User ist Teil des Retreival Prozesses
- Implizites Feedback: Analyse des Verhaltens des Users
- Pseudo Feedback. System nimmt an, dass die oberen K Dokumente relavant sind
  —> Anhand Bewertung: Query Reduction und Expansion (semantisch ähnliiche Begriffe hinzufügen, Unwichtige rausnhemen)
Vorteile:
- Verbesserte Relevanz
- Anpassung an Nutzerpräferenz
- Reduktion von Feedback Loops
Nachteile:
- Abhängigkeit von User Feedback
- Erhöhte Komplexität
- Overfitting

ML based Models

Können trainiert werden um folgende Muster zu erkennen:

Semantische Ähnlichkeit (Lernen wie Wörter und Kozepte in Verbindung stehen)
Relevanzbewertung (Erkennung von Mustern bei Relevantbewertung)
Entitäten und Named Entities (Kann Personen, Orte und Organisationen erkennen)
Themenmodellierung (Latent Dirichlet Allocation (LDA))
Anomalieerkennung

DL Based Models

Nutzung von tiefen neuronalen Netzen zur Identifikation von Mustern in großen Datenmengen
Vielfältige Ausgabemöglichkeiten

Vor- und Nachteile von ML und DL basierten Modellen

Vorteile:

Flexibilität (Anapssung an verschiedene Datentypen)
Automatisierung (an sich ändernde Daten)
Bessere Repräsentation bei komplexen Beziehungen

Nachteile:

Abhängigkeit von Trainingsdaten
Overfitting
Erschwerte Nachvollziehbarkeit
Hoher Ressourcenbedarf

Was ist Word Based Information Retrieval?

Methode der Informationsbeschaffung, bei der Textdokumente oder Datenbanken durchsucht werden. Basiered auf Phrasen (Input)
Grundidee: Wörter können Schlüsselindikatoren für Inhalt eines Dokuments dienen
Besonders relevant bei Data Mining, wo große Mengen an Daten vorliergen

Funktionsweise Word based Retrieval

Datenerfassung und Vorverarbeitung (Normalisierung, etc.)
Indexierung
Anfrageverarveitung (Suche wird auch vorverarbeitet)
Suche und Matching (Durchsuchen und dann Relevanz berechnen)
Ranking und Rückgabe der Ergebnisse
Nachverarbeitung und Verbesserung (Hauptkomponentenanalyse, Feedback von Benutzern)
Anwendung spezifischer Techniken - OPTIONAL (Einsatz von Wortvektoren Word Embeddings, Co-Word Analyse, etc.)

Vorteile Word Based Retrieval

Einfachheit und Verständlichkeit, da keine mathmatischen Transformationen erforderlich
Geringe Rechenanforderungen (keine Vektorraummodelle)
Skalierbarkeit: Neue Dokumente werden einfach Index hinzugefügt - Keine komplette neukalkulation)
Flexibilität bei Anpassung (Hervorheben Wörter ohne komlett neu zu trainieren)
Direkte Interpretierbarkeit: Da auf Wörtern im Text basieren, nicht iwas abstraktes

Herausforderungen Word Based Retrieval

Polysemie und Synonymie: Wörter mit mehreren Bedeutungen oder ähnlichen Bedeutungen verschlechtern Ergebnisse
Lexikalische Lücken: Erkennen nicht ähnliche Aussagen, die dasselbe Konzept beschreiben
Begrenzte Berücksichtigung des Kontexts:
Abhängigkeiten von exakten Übereinstimmungen: Tippfehler, gramtische Fehler führen zu Schwierigkeiten

Was ist Apache Lucene

Leistungsstarke Text-Suchmaschinen-Bibliothek in Java
Corss-Plattform und Open SOurce
Bietet performante und speichereffiziente Indexierung
Leistungsstakre Suchalgorithmen:
- Ranked searching
- Multifaceted queries (suche in mehren Indizes)
- Erweiterte Abfrageoperationen (boolean, range, span)
- Sortierung der Suchergebnisse mögliche
- Gleichzeitige Aktualisierung und Suche
Luscebe gruppierte Dokumente zu Indexsegmenten (Ältere in größeren)

Elasticsearch

Verteilte Suchemaschine die auf Lucene aufbaut und API anbietet
Fügt weitere DInge hinzu: Unterstützung Warteschlangen
Hochverfügbarkeit durch Shard-Replikation
Query DSL ermöglicht vereinfachte schreiben von Abfragen in JSON statt roher Lucene-Syntaxt
Kann auch Auto-completion und fuzzy search
Ein Knoten besteht aus mehreres Shardes (Primary shard für schreiben, replica shard für hohe Verfügbarkeit)

Warum ist Elasticsearch so schnell?

Speicherung in Ivertierten Index (Hashmap mit Zugriffkomplexität von O(1))
Es wird so viel wie möglich im Arbeitsspeicher gehalten
Einsatz von mehrstufigen Caching
- Anfrage Caching (Aggregierte Daten die angefragt wurden)
- Daten Caching: Dateisystem (kürzlich verwendete), Felddaten Cache
Verwendung n-gram Tokenizers: Text wird in Überlappende Substrings zerlegt und verschiedenen Indizes gespeichert: Vervielfältigung der Daten, mehr Speicherbedarf, aber bessere Suchgeschwindigkeit

Word based vs. embedding based Retrieval

Word based:

Verwendet Vektoren (diese bilden aber nur Frequenz und Relevanz ab)
Nutz Vector Space Model
Sparse Vector (hohe Dimesnion, wenig Information pro Dimension)

Embedding based:

Verwendet Vektoren, weleche semantische und syntaktische Bedeutung eines Wortes abbilden
Nutz Word Embedding
dense Vector (Niedrige Dimensionen, viel Information pro Dimension)

Was sund Word Embeddings?

Erlernte Darstellungen von Text, in denen ähnliche Worte eine ähnliche numerische Vektordarstellungen haben (semantisch wie syntaktisch) und in niedrige dimensionierten Raum darstellen
Schlüsseldurchbrüche des Deep Learnings
Word Embeddings können viel schneller trainiert werden als handgebaut Modelle und werden oft als vortrainierte Modelle wie SpaCy angeboten
Kann auch und Oder Abfragen stellen

Was passiert bei Word Embeddings wenn Out of Vocabulary?

Unbekanntes durch Wahrscheinliches ersetzen (Lückentexte)
Zerlegung von Wörtern in Morpheme (Kenne evetl subteile Kaffee-tasse)

Was ist Retrieval Augmented Generation?

LLM wird mit Information Retriever kombiniert
Vor LLM wird ein Retriever gesetzt (nicht parametrisiertes Modell aus Query Encoder und Dokumentenindex)
Queryergebnisse werden als Kontext mitgegeben

Was ist Document Chunking

Aufteilen von großen Textstücken in kleinere Segmente um Relevanz der Inhalte in LLM Anwendungen zu optimieren
Effektive Chunking Strategie verbessert Genauigkeit (Abhängig von Kontext und Begrenzung Tokenanzahl)
Nicht homogener Index (unterschiedliche große Chunks) sorgt für Probleme da unterschiedliche Textgranularität

Document Chunking Strategien

Fixed-Size-Chunking: Feste Größe, inklusive Überlappungen
Rekursives Chunking: Teilt Texte basierted auf verschiedenen Trennzeichen (So oft bis passende Größe)
Dokumentenbasiertes Chunking: Struktur des Dokuments wird berücksichtigt. Abschnutte, Unterabschnitte bleiben erhalten
Semantisches Chunking: Zielt darauf ab semantische Bedeutungen aus Embeddings zu extagueren und die Beziehungen dazwischen zu bewerten —> Aufteilung in semantisch vollständige Chunks damit nichts verloren geht
Agentic Chunking: Experimentelles Verfahren das Menschenverhalten nachahmt. Liest erstes Satz und überlegt dann ob dieser zum vorherigen Chunk dazu zählt

Anwendungsfälle von RAG

Case based Reasoning
Code Generierung/Verfollständigung
Q&A
Research
Knowledge Engine

Vorteile von RAG

Aktualität und Relevanz: ermöglicht es dass Modelle auch aktuellste Daten kennen
Reduktion von Halluzination
Domänen- und Kontextspezifisches Antworten/Wissen
Nachvollziehbarkeit (Kann genutzte Quellen zitieren)
Kosteneffizient: Muss kein eigenes umfangreiches LLM trainieriert werden
Erhötes Vertrauen (da man weiß woher Wissen kommt)
Wissen bleibt geheim (Keine Veröffentlichung von Unternehmensdaten)

Herausforderungen von RAG

Abhängigkeit von externem Wissen
Rechenintensive Abrufkomponenten (besonders bei großen Wissensdatenbanken)
Komplexe Integration der Komponenten
Datenschutz: Berücksichtigung von Comliance Anforderungen und Rollen ist schwierig
Begrenzte Kreativität (da immer auf Kontext hören soll)

Metriken zur Evaluation von IR Systemen

Precision (Wie viele der gefundenen Elemente sind relevant - False positives)
Recall ( Wie viele der relevanten Elemente wurden gefunden - False negatives)
F1-Score als harmonische Mittel von Präzision und Recall

Erweiterte Evaluationsmetriken

Mean Average Precision

Berechung der durchschnittlichen Präzision und Bildung des Mittelwertes unter Berücksichtigung des Recalls
Berücksichtigt Reiehenfolge der zuückgegeben Dokumente und belohnt System
Einschränkung: Annahme binärer Relevant

Normalized Doscounted Cumulative Gain

Normalisierung des Discounted Cumulative Gain (DCG) durch den idealen DCG (IDCG)
DCG summiert die Relevanzwerte der Dokumente, wobei diese Werte logarithmisch in Abhängigkeit von ihrer Position in der Rangliste abnehmen
IDCG repräsentiert den maximal möglichen DCG, wenn die Dokumente in perfekter Reihenfolge sortiert sind

Wie bewerte ich Effizienz eines IR-Systems?

Geschwindigkeit (um Abfrage zu verarbeiten oder Index aufzubauen)
Speicherbedarf
Rechenkomplexität

Was sind moderne Evaluationsmetriken

Vorteile die man sich durch Wissensgraphen erhoft

Beibehaltung der Strukturinformation und Reduzierung der Effekte der Textsegmentierung.
Bessere und Tiefgründige Schlussfolgerung.
Schlussfolgerungen sind glaubwürdiger und Nachvollziehbarer.
In bestimmten Szenarien kann die Leistungsfähigkeit von kleinen Modellen, große Modelle übertreffen.
Kein zusätzlicher Trainingsaufwand.

Content Based Image Indexing vs. Concept Based Image Retrieval

Manuelles Metdaten Tagging vs. automatische Indexierung über Farbe, Struktur, etc.

Wie betreibe ich Benchmarking

Analystische Leistungsevaluierung schwierig, da Relevanz oder Verteilung der Worte nicht pärzise mathematisch beschreibbar ist
Wir nutzen Vorgegevebeb testdatensatz in welchem wir Statndarddokumente sowie Anfrage spezifizieren und auch sagen was pro Anfrage relevant ist —> Kann Werte ableiten

Herausforderungen bei der Evaluierung

Effektivität steht in engem Bezug zur Relevanz
Relevanz ist nicht binär sondern stetige Größe, welche sich aus menschlicher Sicht unterscheidet:
- Subjektiv: Beurteilung des Anwenders
- Situativ: Aktuelle Bedürfnisse
- Kognitiv: Abhängig von Wahrnehmung
- Dynamisch: Veränderung über Zeit

Beitreten

Vorschau

Author

Denis T.

Informationen

Zuletzt geändert
vor 2 Jahren

Kurs melden