Eigenschaften eines Dokumentes
Inhalt z.b. Text
Struktur z.B. Inhaltsverzeichnis
Layout z.B. Schriftgröße
Aufgabe eines Dokuments
Ebene 1 Abstrakter zeichensatz
Ebene 2 Codetabelle
Ebene 3 Kodierungsformat
Ebene 4 Kodierungsschema
Ebene 5 Syntax
Arten von Queries
Informational - Informationsbefarf durch ein beritgefächertes Ergebnis adresseiert - Suche nach generellen Inforamtion
Navigational - Bedürfnis am besten durch eine bestimmte webseite beident - Navigation auf einer Seite
Transactional - Bedürfnis bezieht sich auf Kauftransaktion - Formulare für Transaktion
DIKW-Hierarchy ist ein häufig referenziertes Modell in den Wirtschaftswissenschaften (pyramide)
Ablauf Explizietes Relevance Feeback 6 sdschritte
Übergabe der Query anhand eines Vektors
IRS liefert eine Menge relevanteer Dokumente
User übernimmt Relevanzbeurteilung
IRS übernimmt eine Anpassung des Fragevektors aufgrund des Feedback
Retrieval portesssn wird mit dem optimierten Vektors durchführt
wiederholung der schirtte
implizierten Relevantce Feedback
Hier wird auf die Interaktiosndaten des User analyisiert umd die Relevant beurteilung anzupassen
Keine Bewertung durch den User nötig.
IRS übernimmt die Arbeit
Nachteil: nur gewisser Wissenaufbau für IRS
Was ist der RSV?
RSV = Score, der angibt, wie gut ein Dokument zur Anfrage passt.
Was ist eine Retrievalfunktion?
Eine Retrievalfunktion ist die mathematische Funktion, die für ein Dokument d und eine Query q einen Relevanzwert berechnet.
Formal:
Retrievalfunktion: f(d, q) → RSV
Sie nimmt also:
die Repräsentation eines Dokuments
die Repräsentation einer Anfrage
und berechnet daraus einen Score, nach dem die Dokumente gerankt werden.
Ohne Retrievalfunktion gibt es kein Ranking.
Welche Rolle spielt der Index beim Information Retrieval?
Macht index sache Eine ARt glossar
Was ist der Unterschied zwischen einem Token und einem Term?
In Abgrenzung dazu wird ein in einer gewissen Form normalisierter Token als ein Term bezeichnet. Mit Blick auf das Beispiel oben könnten valide Terme z. B. „friend“ oder „ro
man“ sein. Normalisiert würde in diesem Beispiel bedeuten, dass alle Zeichen kleingeschrieben
wurden und eine Reduktion auf den Singular vorgenommen wurde.
Wofür werden Stemming- und Lemmatization-Verfahren eingesetzt und was ist der Unterschied zwischen beiden?
Was passiert? Ein Wort wird mechanisch gekürzt – meist durch Abschneiden von Endungen.
Beispiel:
laufen → lauf
läuft → lauf
running → runn
Was passiert? Ein Wort wird auf sein lexikalisches Grundwort (Lemma) zurückgeführt.
laufen → laufen
lief → laufen
better → good
Stemming
Lemmatization
Schneidet Wortendungen ab
Nutzt linguistisches Wissen
Ergebnis kann kein echtes Wort sein
Ergebnis ist korrektes Grundwort
Schnell und grob
Präzise und kontextabhängig
Welche Bedeutung hat die Relevanz für das IR?
Im Information Retrieval (IR) ist Relevanz das zentrale Qualitätskriterium.
Ganz direkt gesagt: Ein IR-System (z. B. eine Suchmaschine) ist nur so gut wie seine Fähigkeit, relevante Dokumente zu finden und irrelevante auszublenden.
Was bedeutet Effektivität im IR?
Effektivität im Information Retrieval (IR) bedeutet, wie gut ein Suchsystem die wirklich relevanten Dokumente für eine Anfrage findet. Es geht also um die Qualität der Treffer, nicht um Geschwindigkeit oder Ressourcenverbrauch.
Wofür wird das Pooling eingesetzt?
Pooling wird im Information Retrieval vor allem zur Erstellung von Bewertungsdatensätzen für Effektivitätsmessungen eingesetzt – also um zu bestimmen, welche Dokumente für eine Suchanfrage tatsächlich relevant sind.
Wie funktioniert das Pooling-Verfahren?
Beim Pooling werden nur eine Teilmenge aller möglichen Dokumente von menschlichen Experten beurteilt, weil es zu teuer wäre, alle Dokumente im gesamten Korpus zu bewerten.
Wofür werden Evaluationsmetriken verwendet?
Evaluationsmetriken werden verwendet, um die Qualität, Leistung oder Genauigkeit von Modellen, Systemen oder Prozessen messbar zu beurteilen. Sie helfen dir zu entscheiden, wie gut etwas funktioniert und ob Verbesserungen nötig sind.
Du kannst verschiedene Modelle oder Ansätze vergleichen und objektiv entscheiden, welches besser ist.
In Projekten zeigen Metriken, ob ein System die Anforderungen erfüllt.
Beim Training von KI- oder Statistikmodellen helfen Metriken, Parameter zu verbessern.
Sie liefern Zahlen statt Bauchgefühl – wichtig für datenbasierte Entscheidungen.
Genauigkeit (Accuracy) → Wie viele Vorhersagen stimmen insgesamt?
Precision & Recall → Besonders wichtig bei Klassifikationsproblemen mit ungleich verteilten Daten.
F1-Score → Balance zwischen Precision und Recall.
Mean Squared Error → Häufig bei Regressionsaufgaben.
Evaluationsmetriken sind wie ein Messinstrument, mit dem du prüfst, wie gut ein System sein Ziel erreicht.
Benchmarking-Verfahren im IR
Benchmarking im Information Retrieval bedeutet, Suchsysteme anhand standardisierter Datensätze, Aufgaben und Metriken systematisch zu vergleichen. Ziel ist es, die Qualität von Suchmaschinen oder Suchalgorithmen objektiv zu bewerten.
Typische Metriken im IR-Benchmarking sind:
✅ Precision – Anteil relevanter Treffer unter den gefundenen Dokumenten
✅ Recall – Anteil gefundener relevanter Dokumente an allen relevanten Dokumenten
✅ MAP (Mean Average Precision) – Durchschnittliche Precision über mehrere Queries
✅ NDCG (Normalized Discounted Cumulative Gain) – Bewertet auch die Position relevanter Treffer in der Rangliste
Warum wird das Benchmarking-Verfahren häufig auch kritisiert?
Das Benchmarking-Verfahren im Information Retrieval wird trotz seiner Nützlichkeit oft kritisiert, weil es die Realität nur eingeschränkt abbildet und methodische Schwächen haben kann. Die wichtigsten Kritikpunkte sind:
Testkollektionen sind oft künstlich oder statisch.
Nutzerverhalten in echten Suchsituationen ist viel komplexer als in Tests.
Relevanz wird meist als binär oder grob abgestuft bewertet.
In der Praxis hängt Relevanz aber stark von:
Kontext
Suchintention
Zeitpunkt
Individuellem Nutzerbedarf ab.
Entwickler können Systeme so optimieren, dass sie nur auf Benchmarks gut abschneiden, aber nicht unbedingt in echten Anwendungen.
was ist DIR im IR?
DIR steht im Information Retrieval meist für Document Information Retrieval oder wird als Kürzel für bestimmte IR-Modelle mit Dokumentrepräsentation verwendet – je nach Vorlesung oder Literatur kann die genaue Bedeutung leicht variieren. Am häufigsten meint DIR aber einen probabilistischen Ansatz zur Dokumentbewertung.
DIR-Modelle versuchen zu berechnen, wie relevant ein Dokument für eine Suchanfrage ist, indem sie:
Dokumentinhalte statistisch analysieren
Wahrscheinlichkeiten für Relevanz berechnen
Termhäufigkeiten und Verteilungen berücksichtigen
Das Ziel ist, Dokumente nach Relevanzwahrscheinlichkeit zu ranken.
Was ist der Unterschied zwischen Intra- und Inter-Query-Parallelism?
Beide Begriffe stammen aus der Parallelisierung von Such- oder Datenbankanfragen, unterscheiden sich aber darin, was parallelisiert wird.
👉 Hier wird eine einzelne Anfrage in mehrere Teilaufgaben zerlegt und parallel verarbeitet.
Eine Suchanfrage wird auf mehrere Dokumentpartitionen verteilt.
Verschiedene Teiloperationen einer komplexen Query laufen gleichzeitig.
Antwortzeit einer einzelnen Anfrage verkürzen.
Sehr große Datenmengen
Komplexe Suchanfragen
👉 Hier werden mehrere verschiedene Anfragen gleichzeitig verarbeitet.
Mehrere Nutzer stellen gleichzeitig Suchanfragen.
Jede Anfrage wird unabhängig auf einem anderen Prozessor oder Server bearbeitet.
Durchsatz des Systems erhöhen (mehr Anfragen pro Zeit).
Websuchmaschinen
Systeme mit vielen gleichzeitigen Nutzern
Merkmal
Intra-Query-Parallelism
Inter-Query-Parallelism
Was wird parallelisiert?
Teile einer Anfrage
Mehrere Anfragen
Hauptziel
Antwortzeit reduzieren
Durchsatz erhöhen
Komplexität
Höher
Niedriger
Beispiel
Große Datenbankquery
Viele Nutzeranfragen
Intra = innerhalb einer Query
Inter = zwischen mehreren Queries
Was sind die Vor- und Nachteile einer termbasierten Partitionierung?
Bei der termbasierten Partitionierung wird der Index nach Suchbegriffen (Terms) aufgeteilt. Jeder Server oder Knoten speichert also nur die Dokumente bzw. Indexeinträge für bestimmte Wörter.
Häufig angefragte Begriffe können auf mehrere Knoten verteilt werden.
Dadurch werden Engpässe reduziert.
Besonders gut für einfach strukturierte Suchanfragen mit wenigen Begriffen.
Neue Begriffe können relativ leicht auf neue Partitionen verteilt werden.
Ein Server muss nur einen Teil des gesamten Index durchsuchen.
Sehr häufig vorkommende Begriffe können:
einzelne Knoten überlasten
zu ungleichmäßiger Rechenlast führen.
Wenn eine Anfrage mehrere Begriffe enthält:
Ergebnisse müssen von vielen Partitionen zusammengeführt werden.
Updates und Reorganisation des Index sind schwieriger.
Funktioniert besser mit reinen Termstatistiken als mit komplexen Bedeutungsmodellen.
👉 Vorteil: Schnell bei einfachen Suchanfragen und gut skalierbar. 👉 Nachteil: Kann Lastprobleme erzeugen und ist weniger effizient bei komplexen Queries.
Überlegen Sie, für welche Aufgaben im IR sich das MapReduce-Verfahren besonders gut einsetzen lässt.
was ist das MapReduce-Verfahren ?
MapReduce ist ein Programmier- und Verarbeitungsmodell, das verwendet wird, um sehr große Datenmengen verteilt und parallel zu verarbeiten. Es wird häufig in verteilten Systemen und Big-Data-Analysen eingesetzt.
Die Idee ist, eine große Aufgabe in zwei Hauptschritte aufzuteilen: 👉 Map-Phase 👉 Reduce-Phase
Was ist der Unterschied zwischen einer Klassifikation, einer Taxonomie und einem Thesaurus?
Diese drei Begriffe werden häufig im Information Retrieval und in der Wissensorganisation verwendet, unterscheiden sich aber stark in Struktur, Ziel und Anwendung.
👉 Ziel: Inhalte in vordefinierte Kategorien einordnen.
Ist meist hierarchisch organisiert.
Wird verwendet, um Dokumente oder Objekte systematisch zu ordnen.
Kategorien sind oft fest vorgegeben (z. B. in Bibliothekssystemen).
✅ Beispiel:
Wissenschaft → Naturwissenschaft → Informatik → KI
👉 Fokus: Ordnung und Einteilung
👉 Ziel: Hierarchische Darstellung von Beziehungen zwischen Begriffen oder Objekten.
Sehr strukturiert, meist als Baumstruktur.
Zeigt Beziehungen wie:
Oberbegriff (Generalisierung)
Unterbegriff (Spezialisierung)
Tier
Säugetier
Hund
👉 Fokus: Semantische Hierarchien
👉 Ziel: Darstellung von semantischen Beziehungen zwischen Begriffen.
Nicht nur Hierarchien, sondern auch:
Synonyme
Antonyme
Verwandte Begriffe
Auto → PKW (Synonym)
Auto ↔ Fahrzeug (Oberbegriff)
👉 Fokus: Bedeutungsbeziehungen
Klassifikation
Taxonomie
Thesaurus
Einordnung
Hierarchische Struktur
Semantische Beziehungen
Struktur
Oft hierarchisch
Streng hierarchisch
Netzwerkartige Beziehungen
Beziehungen
Kategorien
Über-/Unterordnung
Bedeutung, Synonyme usw.
Flexibilität
Mittel
Niedrig
Hoch
Klassifikation = Ordnen
Taxonomie = Hierarchisch strukturieren
Thesaurus = Bedeutung vernetzen
Wofür wird das RDF gebraucht?
RDF (Resource Description Framework) ist ein Standard zur Beschreibung und Strukturierung von Daten im Web, entwickelt vom World Wide Web Consortium. Es wird vor allem im Kontext des Semantic Web eingesetzt, um Informationen maschinenlesbar und miteinander verknüpfbar zu machen.
RDF beschreibt Daten in Form von Subjekt – Prädikat – Objekt-Tripeln. 👉 Beispiel:
Auto – hatFarbe – Rot
Daten aus verschiedenen Systemen können leichter kombiniert werden.
Maschinen können Bedeutung aus Daten ableiten, nicht nur Text speichern.
Wird genutzt für:
Ontologien
Wissensgraphen
Verknüpfte offene Daten (Linked Open Data)
Subjekt: Buch
Prädikat: hatAutor
Objekt: Autorname
→ Ermöglicht semantische Verbindungen zwischen Informationen.
👉 RDF wird verwendet, um Daten standardisiert, vernetzt und maschinenverständlich zu speichern und auszutauschen.
Wofür wird das RDFS gebraucht?
RDFS (RDF Schema) ist eine Erweiterung von World Wide Web Consortium RDF-Standards, die verwendet wird, um die Struktur und Bedeutung von RDF-Daten genauer zu beschreiben.
Während RDF Daten in Form von Tripeln speichert, ermöglicht RDFS eine semantische Modellierung von Beziehungen zwischen Daten.
RDFS erlaubt die Modellierung von:
Klassen
Unterklassenbeziehungen
👉 Beispiel:
Fahrzeug → Oberklasse
Auto → Unterklasse von Fahrzeug
Eigenschaften (Properties) können:
Typen zugeordnet werden
Domänen und Wertebereiche erhalten
hatAutor gilt für Klasse Buch
hatAutor
Zielwert ist z. B. ein Person-Objekt
Definiert:
Welche Objekte zu welchen Klassen gehören
Welche Werte zulässig sind
Wird häufig in:
Semantic-Web-Anwendungen
Linked-Data-Systemen
eingesetzt.
👉 RDFS erweitert RDF um semantische Strukturinformationen, insbesondere Klassen, Hierarchien und Eigenschaftsdefinitionen.
Welche Query-Forms kennt SPARQL und wofür werden diese eingesetzt?
SPARQL ist die Abfragesprache für RDF-Daten und wurde vom World Wide Web Consortium standardisiert. Sie wird verwendet, um Daten aus RDF-Wissensgraphen abzufragen, zu manipulieren und zu analysieren.
SPARQL kennt mehrere wichtige Query-Formen:
👉 Wird verwendet, um bestimmte Variablenwerte auszugeben.
Liefert tabellarische Ergebnisse.
Vergleichbar mit SQL-SELECT.
✅ Beispielanwendung:
Suche nach Autoren eines Buches
Abfrage bestimmter Attribute
👉 Typischer Einsatz: Informationssuche
👉 Erstellt neue RDF-Daten aus bestehenden Daten.
Wandelt Abfrageergebnisse in RDF-Tripel um.
Wird für Datenintegration genutzt.
Ableitung neuer Wissensstrukturen
Transformation von Datenquellen
👉 Typischer Einsatz: Wissensgenerierung
👉 Prüft nur, ob eine bestimmte Bedingung erfüllt ist.
Gibt true oder false zurück.
Sehr effizient, da keine Ergebnislisten erzeugt werden.
Existiert ein bestimmtes Dokument?
Gibt es einen bestimmten Zusammenhang?
👉 Typischer Einsatz: Validierung von Aussagen
👉 Liefert Informationen über eine Ressource.
Gibt RDF-Daten zurück, die mit einer Ressource verbunden sind.
Struktur hängt von der Datenquelle ab.
Informationen zu einer Entität abrufen
Wissensgraph-Navigation
👉 Typischer Einsatz: Explorative Suche
Query-Form
Ergebnis
Einsatz
SELECT
Tabellenartige Ergebnisse
Informationsabfrage
CONSTRUCT
Neue RDF-Graphen
Datenintegration
ASK
Wahr/Falsch
Prüfung von Bedingungen
DESCRIBE
RDF-Beschreibung
Exploration
👉 SELECT = Suchen 👉 CONSTRUCT = Erzeugen 👉 ASK = Prüfen 👉 DESCRIBE = Anschauen
Wofür kann NLP im IR eingesetzt werden?
Natural Language Processing (NLP) wird im Information Retrieval verwendet, um natürliche Sprache besser zu verstehen, zu verarbeiten und für Suchsysteme nutzbar zu machen. Besonders in Forschung und Entwicklung – etwa bei der Association for Computational Linguistics – spielt die Kombination von NLP und IR eine große Rolle.
Korrektur von Rechtschreibfehlern
Erkennen von Synonymen
Interpretation der Suchintention
„Handy kaufen“ ≈ „Smartphone erwerben“
Nicht nur Wortübereinstimmung, sondern Bedeutung wird berücksichtigt.
Konzepte statt nur Keywords.
Suche nach „Auto“ findet auch Dokumente über „Fahrzeug“.
Reduziert Wörter auf Grundformen.
Verbessert die Trefferquote.
läuft, laufen, gelaufen → Lauf
Extraktion von:
Entitäten
Schlüsselbegriffen
Themenstrukturen
Hilft beim Aufbau besserer Suchindizes.
NLP hilft, die Relevanz von Suchergebnissen besser zu bewerten, z. B. durch Kontextanalyse.
Wird in modernen Suchassistenten eingesetzt.
Versteht natürliche Fragen und liefert konkrete Antworten.
👉 NLP im IR wird genutzt, um Suchanfragen und Dokumente semantisch zu verstehen, Suchergebnisse zu verbessern und Nutzerintentionen besser zu interpretieren.
Was macht das Ontology-Based-IR aus?
Ontology-Based IR ist ein Ansatz im Information Retrieval, bei dem Ontologien zur Verbesserung des Suchprozesses und des semantischen Verständnisses von Daten verwendet werden. Standards und Technologien für Ontologien werden z. B. vom World Wide Web Consortium entwickelt und gefördert.
Klassische IR-Systeme arbeiten hauptsächlich mit Wortübereinstimmung.
Ontology-Based IR arbeitet mit Bedeutungs- und Konzeptbeziehungen.
Ziel ist eine semantische Suche statt reiner Keyword-Suche.
Ontologien definieren:
Begriffe
Beziehungen zwischen Konzepten
„Auto“ ist ein Unterbegriff von „Fahrzeug“.
Typische Beschreibungssprachen sind z. B.:
Web Ontology Language (OWL)
Suchanfragen werden auf Konzepte statt auf Wörter abgebildet.
Synonyme und verwandte Begriffe werden automatisch berücksichtigt.
Dokumente werden mit semantischen Metadaten angereichert.
Nutzung von Wissensgraphen und strukturierten Wissensmodellen.
Bessere Trefferrelevanz durch Kontextverständnis.
Reduziert Mehrdeutigkeiten in der Sprache.
✅ Höhere Suchpräzision ✅ Besseres Verständnis von Nutzerintentionen ✅ Gute Integration in Semantic-Web-Technologien
❌ Hoher Aufwand beim Aufbau von Ontologien ❌ Wartung und Aktualisierung komplex ❌ Teilweise schwierig zu skalieren
👉 Ontology-Based IR nutzt semantische Wissensmodelle, um Bedeutung statt nur Wörter zu vergleichen und Suchergebnisse zu verbessern.
Was ist ein semantisches Maß?
Ein semantisches Maß ist eine Methode, um die Bedeutungsähnlichkeit oder semantische Distanz zwischen Begriffen, Dokumenten oder Konzepten zu messen – also nicht nur, ob Wörter gleich sind, sondern wie eng ihre Bedeutung zusammenhängt.
Semantische Maße messen Bedeutung statt nur Wortgleichheit.
Was unterscheidet strukturbasierte und merkmalsbasierte Ansätze?
Diese beiden Ansätze werden oft in Information Retrieval, KI und Wissensrepräsentation verwendet, unterscheiden sich aber darin, wie Ähnlichkeit oder Bedeutung modelliert wird.
👉 Vergleichen Strukturen und Beziehungen zwischen Konzepten.
Bedeutung ergibt sich aus der Position und den Verbindungen in einer Struktur (z. B. Ontologien, Graphen, Hierarchien).
Nutzen Wissensgraphen oder hierarchische Modelle
Berücksichtigen:
Ober-/Unterbegriffe
Relationen zwischen Konzepten
„Auto“ und „Fahrzeug“ sind ähnlich, weil sie in einer Hierarchie nah beieinander liegen.
✅ Gute semantische Interpretation ✅ Geeignet für Wissensmodelle
❌ Aufbau und Pflege der Struktur ist aufwendig
👉 Vergleichen Eigenschaften oder Attribute von Objekten.
Bedeutung wird durch Merkmalsvektoren oder statistische Eigenschaften beschrieben.
Verwendung von:
Wortfrequenzen
Embeddings
Vektorraumdarstellungen
Zwei Dokumente sind ähnlich, wenn sie viele gleiche Wörter oder ähnliche Kontextvektoren haben.
✅ Gut skalierbar ✅ Funktioniert gut mit großen Datenmengen
❌ Semantische Beziehungen werden weniger explizit modelliert
Strukturbasiert
Merkmalsbasiert
Basis
Beziehungen und Struktur
Eigenschaften und Features
Modelltyp
Graph-/Hierarchiemodelle
Vektor- oder Statistikmodelle
TF-IDF, Embeddings
Stärke
Semantik
Skalierbarkeit
👉 Strukturbasiert = Bedeutung durch Beziehungen 👉 Merkmalsbasiert = Bedeutung durch Eigenschaften
was ist und macht der invertierten Index
Der invertierte Index ist eine zentrale Datenstruktur im Information Retrieval und wird z. B. von Suchmaschinen genutzt, um Suchanfragen schnell zu beantworten. Er wird häufig in Standards und Technologien verwendet, die vom World Wide Web Consortium beeinflusst sind.
👉 Statt für jedes Dokument zu speichern, welche Wörter es enthält, speichert der invertierte Index für jedes Wort, in welchen Dokumenten es vorkommt.
Klassischer Index:
Dokument → Wörter
Invertierter Index:
Wort → Dokumentliste
Er besteht meist aus zwei Komponenten:
Liste aller vorkommenden Begriffe.
Für jeden Begriff wird gespeichert:
In welchen Dokumenten er vorkommt
Oft zusätzlich:
Position im Dokument
Häufigkeit
Dokumente:
D1: „Information Retrieval ist wichtig“
D2: „Retrieval Systeme sind schnell“
Information → D1
Retrieval → D1, D2
Systeme → D2
✅ Schnelle Suche nach Dokumenten ✅ Effizientes Ranking von Ergebnissen ✅ Unterstützung von Booleschen und semantischen Suchanfragen
Sehr schnelle Suchoperationen
Gute Skalierbarkeit bei großen Textmengen
Hoher Speicherbedarf
Aufwendige Aktualisierung bei häufigen Änderungen
👉 Invertierter Index = Wort → Dokumente statt Dokument → Wörter
AUFGABEN VON INFORMATION RETRIEVAL
Retrieval Task: „the task executed by the information system in response to a user request. It is basically of two types: ad hoc and filtering”
Ad Hoc Retrieval: Die User eines IR-Prozesses spezifizieren hierbei einen Informationsbedarf mittels einer Suchanfrage, welche ein automatisiertes Verfahren startet. Die Ausgabe des Verfahrens besteht dabei in einer klassischen IR Anwendung in einer Menge relevanter Dokumente mit textuellem Inhalt.
Filtering beschreibt die Aufgabe, bei der ein relativ statischer Informationsbedarf besteht, jedoch der Dokumentbestand sich beständig erweitert (z. B. das Durchsuchen von E-Mail-Listen).
Prozess des INDEXIERUNGSPROZESS
Prozess:
o Zusammenbringen aller zu berücksichtigenden Dokumente einer Dokumentkollektion
o Zerlegung der textuellen Inhalte von Dokumenten in unterscheidbare Einheiten
o Durchführung einer sprachlichen Untersuchung der identifizierten Einheiten, mit dem Ziel einer normalisierten Darstellung
o Erstellung eines invertierten Indexes
Wesentliche Komponenten für die Durchführung einer Evaluation:
Fixed set of queries (topics): Wichtig, dass Topics realistische Informationsbedürfnisse wiedergeben
Fixed set of documents (Korpus): zugrundeliegende Dokumentenbasis
Fixed set of relevance judgements: Relevanzbestimmung bzgl. verschiedener
Querys Goldstandard oder Grundwahrheit (groundtruth): Einteilung der Dokumente einer Testkollektion in relevante oder nicht
verteilten Suche - Herausforderungen an brokerbasierte Ansätze
o Ressourcenbeschreibung (resource description): Inhalte einer Kollektion müssen derart beschrieben worden sein, dass lediglich die Querys an diese Quelle weitergeleitet werden, die auch von dieser beantwortet werden können
o Ressourcenselektion (resource selection): Auf der Basis einer Datenbankbeschreibung muss automatisiert entschieden werden, welche der Kollektionen passend zur Query ist
o Ergebniszusammenführung (bzw. Merging): Ergebnisse für eine konsolidierte Ausgabe zusammengeführt werden
IR-System (Information Retrieval) bedeutet Ontologien?
Eine strukturierte, formale Beschreibung von Begriffen und ihren Beziehungen in einem bestimmten Wissensbereich.
Stell dir das wie eine „intelligente Landkarte“ eines Themengebiets vor.
Ein IR-System (z. B. Suchmaschinen wie Google oder wissenschaftliche Datenbanksuchen) muss verstehen:
Welche Begriffe zusammengehören
Welche Begriffe Synonyme sind
Welche Begriffe Unter- oder Oberbegriffe sind
Wie Konzepte miteinander verknüpft sind
Eine Ontologie liefert genau diese Struktur.
Angenommen, jemand sucht nach:
„Herzinfarkt Behandlung“
Eine Ontologie weiß dann z. B.:
„Herzinfarkt“ = „Myokardinfarkt“ (Synonym)
Herzinfarkt ist eine Form von „Herzkrankheit“
„Stent“ ist eine Behandlungsmethode für Herzinfarkt
„Kardiologie“ ist das Fachgebiet
Das IR-System kann dadurch:
bessere Treffer liefern
verwandte Begriffe automatisch mit einbeziehen
relevantere Dokumente finden
Ohne Ontologie würde die Suche nur stumpf nach exakt diesen Wörtern suchen.
Ontologien helfen bei:
Semantischer Suche (Bedeutung statt nur Wörter)
Query Expansion (Suchbegriffe automatisch erweitern)
Strukturierter Datenverarbeitung
Präziserem Ranking von Treffern
Große Wissenssysteme wie DBpedia oder Wikidata basieren stark auf ontologischen Strukturen.
Im IR sind Ontologien ein Werkzeug, um:
Bedeutung zu modellieren – nicht nur Wörter zu vergleichen.
Bates Information Seeking und Searching Model
o Bewusstsein (Awareness): das, was wir aufnehmen und lernen über passives Verhalten
o Überwachen (Monitoring): Überwachen und Stöbern sind sich ergänzende Modi. Überwachen ist direkt und passiv, während Stöbern ungerichtet und aktiv betrieben wird.
o Stöbern (Browsing): Es gibt keinen spezifischen Informationsbedarf, sondern es findet eine aktive Suche nach neuen Informationen statt.
o Suchen (Searching): ein aktives Bestreben, Antworten zu offenen Fragen zu finden oder ein Verständnis für einen neuen Sachverhalt zubekommen.
information Seeking Merkmale von Kuhltau
Das ist extrem wichtig im IR-Kontext, weil es zeigt: Informationssuche ist nicht nur technisch – sie ist ein kognitiver und emotionaler Prozess.
Hier die zentralen Merkmale klar und prüfungsrelevant zusammengefasst:
Kuhlthau beschreibt 6 Phasen der Informationssuche. Wichtig: Jede Phase hat Gedanken, Gefühle und Handlungen.
Situation: Problem wird erkannt Gefühle: Unsicherheit, Zweifel Gedanken: „Was genau ist mein Thema?“ Verhalten: Erste Orientierungssuche
👉 Zentrale Erkenntnis: Unsicherheit ist normal.
Situation: Thema wird ausgewählt Gefühle: Kurzzeitiger Optimismus Gedanken: „Das klingt machbar.“ Verhalten: Erste gezielte Suche
Situation: Intensive Recherche Gefühle: Verwirrung, Frustration, Unsicherheit Gedanken: Widersprüchliche Infos, Überforderung Verhalten: Viel Lesen, wenig Klarheit
👉 Kritische Phase – viele geben hier auf.
Situation: Klarer Fokus entsteht Gefühle: Sicherheit wächst Gedanken: „Jetzt verstehe ich mein Thema.“ Verhalten: Gezieltere Recherche
👉 Wendepunkt im Prozess.
Situation: Relevante Infos werden gesammelt Gefühle: Zuversicht Gedanken: Klare Struktur Verhalten: Systematisches Sammeln
Situation: Ergebnis wird präsentiert Gefühle: Erleichterung (oder Enttäuschung) Gedanken: Reflexion des Prozesses
Zuletzt geändertvor einem Tag