Was ist IR?
Prozess des Suchen und Findens von relevanten Informationen in großen Datenmengen
Mit was befasst sich IR alles?
Informations
-analyse
-organisation
-struktur
-speicherung
-suche
-abruf
Basisdefinitionen Textvorverarbeitung
Textkorpus: Menge aller vorhandenen Daten, auf denen das IR System arbeiten soll
Abfrage (Query): Eingabe textueller Schlagwörter, die als Fliter auf Textkorpus angewandet werden
Indexierung (Verschlagwortung): Speicherung aller relevanten Schlagwörter eines Textes in einem Index zur Zusammenfassung
Was ist ein Dokument
Kleinste Einheit, die von IR System zurückgegeben werden können
Probleme:
Mailverlauf —> Mehre einzelne Nachichten
Latex Dokumenten, dass aus mehreren .tex-Dateien besteht
Aufteilung aufgrund Dokumentengröße
—> Weiter verstreute Zusammenhänge erkennbar vs. Anzahl relevanter Ergebnisse
Token vs. Term
Token: Zusammengehörige Buchstabenfolge innerhalb eines Dokuments oder Query (z.B. aufteilen nach Worten)
Term: Verarbeitete und indexierte Einheiten von Informationen (Term in Index) —> Token ist Istanz eines Terms
Fehlerfälle bei Tokenisierung
Trennung bei Lehrzeichen führt dazu, dass New und York getrennt werden —> Falsche Ergebnisse (Ebenso bei Datum und Telefonnummern)
Fehelnde Trennung bei Sonderzeichen (state-of-the-art ja, aber nicht Hewlett-Packard)
Fehlende Trennung aufgrund mangelnder Leerzeichen (Kindergarten) —> Splitter Modul auf Basis eines vordefinierten Wortschatzes
Optimierung durch Stoppwortentfernung
Stopwort: Häufig auftretende Füllworte mit geringem Mehrwert für Suche
Vorteil: Geringerer Aufwand bei Indexierung & Reduktion der Komplexität
Nachteil: Je nach Query erhebliche Verschlechterung der Ergebnisse —> Trend geht zur Vollindexierung
Was versteht man unter Normalisierung
Gleichartige oder ähznliche Token sollen in gleichem Term resultieren
Umwandlung ähnlicher Token in generalisierte Terme gemäß festgelegter Normalisierungsregel
Normalisierungsregeln
Äquivalenzklassen (Nur normalisierte Terme werden in Index gespeichert, Abfrage wird ebenfalls normalisiert —> Geringer Speicherbedarf)
Query Expansion List (Während Indexierung wird Liste geführt, die Beziehungen zwischen nicht normalisierten Token erhält. Bei Query wird term aber auch expansions durchsucht —> Speicher und rechenintensiv, insbesondere bei großem Texkorpus)
Umgang mit Akzenten und Diakritika (Oft Ignorierung, korrekt: Prüfung mittels Wörterbuch ob Änerdung Schreibweise = Änderung Bedeutung)
Groß und Kleinschreibung (Problem Eigennamen —> Satzanfänge und Überschriften klein, aber Großschreibung innerhalb von Sätzen beibehalten
Synonyme und Abkürzungen (Basis: Thesaurus, welcher aber abhängig von Dokumentensprache, Oft Normalisierung von Synonymen per QEL)
Was sind schwierige Sonderfälle bei der Normalisierung?
Zahlen (Ausgeschrieben, Numerisch)
Datumsformate
Beträge (200,00€; 200-, 200 EURO)
Eigennamen
URLs
Asiatische Sprachen: Mischung verschieder Alphabete
Stemming und Lemmatisierung
Stemming: Reduzierung auf Wortstämme durch Entfernen nachgestellter Buchstaben (Einfaches regelbasiertes Verfahren zur Unterscheidung zwischen Affixen und Wortstamm)
Lemmatisierung: Wortschatzbasierte grammatikalische Analyse zur Ermittlung der Grundform eines Wortes
Porter Stemmer
Einfacher Stammformreduktionsalgorithmus für Englisch
Traversiert Text sequentiell, wendet dabei Regeln an wobei Suffixe miteinander ersetzt werden, wenn Bedingung zutrifft
Was können IR Modelle
Geben vor, wie Dokumente und Nuteranfragen verarbeitet werden
Enthalten Funktionalität um Relevanz der Dokumente für Nutzer zu ermitteln
Enthalten Funktionalität um Dokumente basierend auf Relveanz zu ranken
Was für IR-Modelle gibt es?
Boolean Model
Vextor Space Model
Porbabilistic Models
Relevance Feedback Models
ML based Models
DL based Models
Boolsche Modell
Basierend auf Assuagenlogik (AND, OR, NOT)
Term Dokument Matrix
Invertierter Index reduziert Dimensionalität (Speicherbedarf)
Vorteile:
Einfachheit
Präzision
Deterministische Ergebnisse
Nachteile:
Mangelnder Berücksichtigung Relevant
Große Ergebnismengen
Vector Space Model
Dokumente und Suchanfragen als Vektoren in einem mehrdimensionalen Raum (Hede Dimenion entsprich einem Begriff oder Merkmal)
Messung der Ähnlichkeit via Kosinus-Ähnlichkeit
Ranking basierung auf Term Frequency oder Inverse Document Frequency (kann auch kombiniert werden)
Berechnung der Ähnlichkeit
Schlechte Darstellung von großen Dokumenten
Skalierbarkeit
Probabalistic Models
Wahrscheinlichkeit berücksichtigen, dass ein User ein Dokument aufruft
Berücksichtigung von Unsicherheiten, Iterative Verbesserung der Relevanz-Schätzung
BM25 ist ein Beispiel, dass auf Tf und idf Relevanzentscheidung trifft
Vorteile
Flexibilität
Robustheit
Interpretierbarkeit
Komplexität
Abhängigkeit von Annahmen
Kalibrierung
Modell-Erweiterung basierend auf User Feedback
Feedbackformen:
Explizites Feedback: User ist Teil des Retreival Prozesses
Implizites Feedback: Analyse des Verhaltens des Users
Pseudo Feedback. System nimmt an, dass die oberen K Dokumente relavant sind
—> Anhand Bewertung: Query Reduction und Expansion (semantisch ähnliiche Begriffe hinzufügen, Unwichtige rausnhemen)
Verbesserte Relevanz
Anpassung an Nutzerpräferenz
Reduktion von Feedback Loops
Abhängigkeit von User Feedback
Erhöhte Komplexität
Overfitting
Können trainiert werden um folgende Muster zu erkennen:
Semantische Ähnlichkeit (Lernen wie Wörter und Kozepte in Verbindung stehen)
Relevanzbewertung (Erkennung von Mustern bei Relevantbewertung)
Entitäten und Named Entities (Kann Personen, Orte und Organisationen erkennen)
Themenmodellierung (Latent Dirichlet Allocation (LDA))
Anomalieerkennung
DL Based Models
Nutzung von tiefen neuronalen Netzen zur Identifikation von Mustern in großen Datenmengen
Vielfältige Ausgabemöglichkeiten
Vor- und Nachteile von ML und DL basierten Modellen
Flexibilität (Anapssung an verschiedene Datentypen)
Automatisierung (an sich ändernde Daten)
Bessere Repräsentation bei komplexen Beziehungen
Abhängigkeit von Trainingsdaten
Erschwerte Nachvollziehbarkeit
Hoher Ressourcenbedarf
Was ist Word Based Information Retrieval?
Methode der Informationsbeschaffung, bei der Textdokumente oder Datenbanken durchsucht werden. Basiered auf Phrasen (Input)
Grundidee: Wörter können Schlüsselindikatoren für Inhalt eines Dokuments dienen
Besonders relevant bei Data Mining, wo große Mengen an Daten vorliergen
Funktionsweise Word based Retrieval
Datenerfassung und Vorverarbeitung (Normalisierung, etc.)
Indexierung
Anfrageverarveitung (Suche wird auch vorverarbeitet)
Suche und Matching (Durchsuchen und dann Relevanz berechnen)
Ranking und Rückgabe der Ergebnisse
Nachverarbeitung und Verbesserung (Hauptkomponentenanalyse, Feedback von Benutzern)
Anwendung spezifischer Techniken - OPTIONAL (Einsatz von Wortvektoren Word Embeddings, Co-Word Analyse, etc.)
Vorteile Word Based Retrieval
Einfachheit und Verständlichkeit, da keine mathmatischen Transformationen erforderlich
Geringe Rechenanforderungen (keine Vektorraummodelle)
Skalierbarkeit: Neue Dokumente werden einfach Index hinzugefügt - Keine komplette neukalkulation)
Flexibilität bei Anpassung (Hervorheben Wörter ohne komlett neu zu trainieren)
Direkte Interpretierbarkeit: Da auf Wörtern im Text basieren, nicht iwas abstraktes
Herausforderungen Word Based Retrieval
Polysemie und Synonymie: Wörter mit mehreren Bedeutungen oder ähnlichen Bedeutungen verschlechtern Ergebnisse
Lexikalische Lücken: Erkennen nicht ähnliche Aussagen, die dasselbe Konzept beschreiben
Begrenzte Berücksichtigung des Kontexts:
Abhängigkeiten von exakten Übereinstimmungen: Tippfehler, gramtische Fehler führen zu Schwierigkeiten
Was ist Apache Lucene
Leistungsstarke Text-Suchmaschinen-Bibliothek in Java
Corss-Plattform und Open SOurce
Bietet performante und speichereffiziente Indexierung
Leistungsstakre Suchalgorithmen:
Ranked searching
Multifaceted queries (suche in mehren Indizes)
Erweiterte Abfrageoperationen (boolean, range, span)
Sortierung der Suchergebnisse mögliche
Gleichzeitige Aktualisierung und Suche
Luscebe gruppierte Dokumente zu Indexsegmenten (Ältere in größeren)
Elasticsearch
Verteilte Suchemaschine die auf Lucene aufbaut und API anbietet
Fügt weitere DInge hinzu: Unterstützung Warteschlangen
Hochverfügbarkeit durch Shard-Replikation
Query DSL ermöglicht vereinfachte schreiben von Abfragen in JSON statt roher Lucene-Syntaxt
Kann auch Auto-completion und fuzzy search
Ein Knoten besteht aus mehreres Shardes (Primary shard für schreiben, replica shard für hohe Verfügbarkeit)
Warum ist Elasticsearch so schnell?
Speicherung in Ivertierten Index (Hashmap mit Zugriffkomplexität von O(1))
Es wird so viel wie möglich im Arbeitsspeicher gehalten
Einsatz von mehrstufigen Caching
Anfrage Caching (Aggregierte Daten die angefragt wurden)
Daten Caching: Dateisystem (kürzlich verwendete), Felddaten Cache
Verwendung n-gram Tokenizers: Text wird in Überlappende Substrings zerlegt und verschiedenen Indizes gespeichert: Vervielfältigung der Daten, mehr Speicherbedarf, aber bessere Suchgeschwindigkeit
Word based vs. embedding based Retrieval
Word based:
Verwendet Vektoren (diese bilden aber nur Frequenz und Relevanz ab)
Nutz Vector Space Model
Sparse Vector (hohe Dimesnion, wenig Information pro Dimension)
Embedding based:
Verwendet Vektoren, weleche semantische und syntaktische Bedeutung eines Wortes abbilden
Nutz Word Embedding
dense Vector (Niedrige Dimensionen, viel Information pro Dimension)
Was sund Word Embeddings?
Erlernte Darstellungen von Text, in denen ähnliche Worte eine ähnliche numerische Vektordarstellungen haben (semantisch wie syntaktisch) und in niedrige dimensionierten Raum darstellen
Schlüsseldurchbrüche des Deep Learnings
Word Embeddings können viel schneller trainiert werden als handgebaut Modelle und werden oft als vortrainierte Modelle wie SpaCy angeboten
Kann auch und Oder Abfragen stellen
Was passiert bei Word Embeddings wenn Out of Vocabulary?
Unbekanntes durch Wahrscheinliches ersetzen (Lückentexte)
Zerlegung von Wörtern in Morpheme (Kenne evetl subteile Kaffee-tasse)
Was ist Retrieval Augmented Generation?
LLM wird mit Information Retriever kombiniert
Vor LLM wird ein Retriever gesetzt (nicht parametrisiertes Modell aus Query Encoder und Dokumentenindex)
Queryergebnisse werden als Kontext mitgegeben
Was ist Document Chunking
Aufteilen von großen Textstücken in kleinere Segmente um Relevanz der Inhalte in LLM Anwendungen zu optimieren
Effektive Chunking Strategie verbessert Genauigkeit (Abhängig von Kontext und Begrenzung Tokenanzahl)
Nicht homogener Index (unterschiedliche große Chunks) sorgt für Probleme da unterschiedliche Textgranularität
Document Chunking Strategien
Fixed-Size-Chunking: Feste Größe, inklusive Überlappungen
Rekursives Chunking: Teilt Texte basierted auf verschiedenen Trennzeichen (So oft bis passende Größe)
Dokumentenbasiertes Chunking: Struktur des Dokuments wird berücksichtigt. Abschnutte, Unterabschnitte bleiben erhalten
Semantisches Chunking: Zielt darauf ab semantische Bedeutungen aus Embeddings zu extagueren und die Beziehungen dazwischen zu bewerten —> Aufteilung in semantisch vollständige Chunks damit nichts verloren geht
Agentic Chunking: Experimentelles Verfahren das Menschenverhalten nachahmt. Liest erstes Satz und überlegt dann ob dieser zum vorherigen Chunk dazu zählt
Anwendungsfälle von RAG
Case based Reasoning
Code Generierung/Verfollständigung
Q&A
Research
Knowledge Engine
Vorteile von RAG
Aktualität und Relevanz: ermöglicht es dass Modelle auch aktuellste Daten kennen
Reduktion von Halluzination
Domänen- und Kontextspezifisches Antworten/Wissen
Nachvollziehbarkeit (Kann genutzte Quellen zitieren)
Kosteneffizient: Muss kein eigenes umfangreiches LLM trainieriert werden
Erhötes Vertrauen (da man weiß woher Wissen kommt)
Wissen bleibt geheim (Keine Veröffentlichung von Unternehmensdaten)
Herausforderungen von RAG
Abhängigkeit von externem Wissen
Rechenintensive Abrufkomponenten (besonders bei großen Wissensdatenbanken)
Komplexe Integration der Komponenten
Datenschutz: Berücksichtigung von Comliance Anforderungen und Rollen ist schwierig
Begrenzte Kreativität (da immer auf Kontext hören soll)
Metriken zur Evaluation von IR Systemen
Precision (Wie viele der gefundenen Elemente sind relevant - False positives)
Recall ( Wie viele der relevanten Elemente wurden gefunden - False negatives)
F1-Score als harmonische Mittel von Präzision und Recall
Erweiterte Evaluationsmetriken
Mean Average Precision
Berechung der durchschnittlichen Präzision und Bildung des Mittelwertes unter Berücksichtigung des Recalls
Berücksichtigt Reiehenfolge der zuückgegeben Dokumente und belohnt System
Einschränkung: Annahme binärer Relevant
Normalized Doscounted Cumulative Gain
Normalisierung des Discounted Cumulative Gain (DCG) durch den idealen DCG (IDCG)
DCG summiert die Relevanzwerte der Dokumente, wobei diese Werte logarithmisch in Abhängigkeit von ihrer Position in der Rangliste abnehmen
IDCG repräsentiert den maximal möglichen DCG, wenn die Dokumente in perfekter Reihenfolge sortiert sind
Wie bewerte ich Effizienz eines IR-Systems?
Geschwindigkeit (um Abfrage zu verarbeiten oder Index aufzubauen)
Speicherbedarf
Rechenkomplexität
Was sind moderne Evaluationsmetriken
Vorteile die man sich durch Wissensgraphen erhoft
Beibehaltung der Strukturinformation und Reduzierung der Effekte der Textsegmentierung.
Bessere und Tiefgründige Schlussfolgerung.
Schlussfolgerungen sind glaubwürdiger und Nachvollziehbarer.
In bestimmten Szenarien kann die Leistungsfähigkeit von kleinen Modellen, große Modelle übertreffen.
Kein zusätzlicher Trainingsaufwand.
Content Based Image Indexing vs. Concept Based Image Retrieval
Manuelles Metdaten Tagging vs. automatische Indexierung über Farbe, Struktur, etc.
Wie betreibe ich Benchmarking
Analystische Leistungsevaluierung schwierig, da Relevanz oder Verteilung der Worte nicht pärzise mathematisch beschreibbar ist
Wir nutzen Vorgegevebeb testdatensatz in welchem wir Statndarddokumente sowie Anfrage spezifizieren und auch sagen was pro Anfrage relevant ist —> Kann Werte ableiten
Herausforderungen bei der Evaluierung
Effektivität steht in engem Bezug zur Relevanz
Relevanz ist nicht binär sondern stetige Größe, welche sich aus menschlicher Sicht unterscheidet:
Subjektiv: Beurteilung des Anwenders
Situativ: Aktuelle Bedürfnisse
Kognitiv: Abhängig von Wahrnehmung
Dynamisch: Veränderung über Zeit
Zuletzt geändertvor 6 Monaten