von Clemens C.

Eigenschaften eines Dokumentes

Inhalt z.b. Text

Struktur z.B. Inhaltsverzeichnis

Layout z.B. Schriftgröße

Aufgabe eines Dokuments

Ebene 1 Abstrakter zeichensatz

Ebene 2 Codetabelle

Ebene 3 Kodierungsformat

Ebene 4 Kodierungsschema

Ebene 5 Syntax

Arten von Queries

Informational - Informationsbefarf durch ein beritgefächertes Ergebnis adresseiert - Suche nach generellen Inforamtion

Navigational - Bedürfnis am besten durch eine bestimmte webseite beident - Navigation auf einer Seite

Transactional - Bedürfnis bezieht sich auf Kauftransaktion - Formulare für Transaktion

DIKW-Hierarchy ist ein häufig referenziertes Modell in den Wirtschaftswissenschaften (pyramide)

Ablauf Explizietes Relevance Feeback 6 sdschritte

Übergabe der Query anhand eines Vektors
IRS liefert eine Menge relevanteer Dokumente
User übernimmt Relevanzbeurteilung
IRS übernimmt eine Anpassung des Fragevektors aufgrund des Feedback
Retrieval portesssn wird mit dem optimierten Vektors durchführt
wiederholung der schirtte

implizierten Relevantce Feedback

Hier wird auf die Interaktiosndaten des User analyisiert umd die Relevant beurteilung anzupassen

Keine Bewertung durch den User nötig.

IRS übernimmt die Arbeit

Nachteil: nur gewisser Wissenaufbau für IRS

Was ist der RSV?

RSV = Score, der angibt, wie gut ein Dokument zur Anfrage passt.

Was ist eine Retrievalfunktion?

Eine Retrievalfunktion ist die mathematische Funktion, die für ein Dokument d und eine Query q einen Relevanzwert berechnet.

Formal:

Retrievalfunktion: f(d, q) → RSV

Sie nimmt also:

die Repräsentation eines Dokuments
die Repräsentation einer Anfrage

und berechnet daraus einen Score, nach dem die Dokumente gerankt werden.

Ohne Retrievalfunktion gibt es kein Ranking.

Welche Rolle spielt der Index beim Information Retrieval?

Macht index sache Eine ARt glossar

Was ist der Unterschied zwischen einem Token und einem Term?

In Abgrenzung dazu wird ein in einer gewissen Form normalisierter Token als ein Term bezeichnet. Mit Blick auf das Beispiel oben könnten valide Terme z. B. „friend“ oder „ro

man“ sein. Normalisiert würde in diesem Beispiel bedeuten, dass alle Zeichen kleingeschrieben

wurden und eine Reduktion auf den Singular vorgenommen wurde.

Wofür werden Stemming- und Lemmatization-Verfahren eingesetzt und was ist der Unterschied zwischen beiden?

Stemming

Was passiert? Ein Wort wird mechanisch gekürzt – meist durch Abschneiden von Endungen.

Beispiel:

laufen → lauf
läuft → lauf
running → runn

Lemmatization

Was passiert? Ein Wort wird auf sein lexikalisches Grundwort (Lemma) zurückgeführt.

Beispiel:

laufen → laufen
lief → laufen
better → good

Stemming	Lemmatization
Schneidet Wortendungen ab	Nutzt linguistisches Wissen
Ergebnis kann kein echtes Wort sein	Ergebnis ist korrektes Grundwort
Schnell und grob	Präzise und kontextabhängig

Welche Bedeutung hat die Relevanz für das IR?

Im Information Retrieval (IR) ist Relevanz das zentrale Qualitätskriterium.

Ganz direkt gesagt: Ein IR-System (z. B. eine Suchmaschine) ist nur so gut wie seine Fähigkeit, relevante Dokumente zu finden und irrelevante auszublenden.

Was bedeutet Effektivität im IR?

Effektivität im Information Retrieval (IR) bedeutet, wie gut ein Suchsystem die wirklich relevanten Dokumente für eine Anfrage findet. Es geht also um die Qualität der Treffer, nicht um Geschwindigkeit oder Ressourcenverbrauch.

Wofür wird das Pooling eingesetzt?

Pooling wird im Information Retrieval vor allem zur Erstellung von Bewertungsdatensätzen für Effektivitätsmessungen eingesetzt – also um zu bestimmen, welche Dokumente für eine Suchanfrage tatsächlich relevant sind.

Wie funktioniert das Pooling-Verfahren?

Beim Pooling werden nur eine Teilmenge aller möglichen Dokumente von menschlichen Experten beurteilt, weil es zu teuer wäre, alle Dokumente im gesamten Korpus zu bewerten.

Wofür werden Evaluationsmetriken verwendet?

Evaluationsmetriken werden verwendet, um die Qualität, Leistung oder Genauigkeit von Modellen, Systemen oder Prozessen messbar zu beurteilen. Sie helfen dir zu entscheiden, wie gut etwas funktioniert und ob Verbesserungen nötig sind.

🧠 Wofür genau?

1. Modellvergleich

Du kannst verschiedene Modelle oder Ansätze vergleichen und objektiv entscheiden, welches besser ist.

2. Qualitätskontrolle

In Projekten zeigen Metriken, ob ein System die Anforderungen erfüllt.

3. Optimierung

Beim Training von KI- oder Statistikmodellen helfen Metriken, Parameter zu verbessern.

4. Entscheidungsunterstützung

Sie liefern Zahlen statt Bauchgefühl – wichtig für datenbasierte Entscheidungen.

Beispiele für typische Metriken

Genauigkeit (Accuracy) → Wie viele Vorhersagen stimmen insgesamt?
Precision & Recall → Besonders wichtig bei Klassifikationsproblemen mit ungleich verteilten Daten.
F1-Score → Balance zwischen Precision und Recall.
Mean Squared Error → Häufig bei Regressionsaufgaben.

⭐ Einfach gesagt

Evaluationsmetriken sind wie ein Messinstrument, mit dem du prüfst, wie gut ein System sein Ziel erreicht.

Benchmarking-Verfahren im IR

Benchmarking im Information Retrieval bedeutet, Suchsysteme anhand standardisierter Datensätze, Aufgaben und Metriken systematisch zu vergleichen. Ziel ist es, die Qualität von Suchmaschinen oder Suchalgorithmen objektiv zu bewerten.

Evaluationsmetriken

Typische Metriken im IR-Benchmarking sind:

✅ Precision – Anteil relevanter Treffer unter den gefundenen Dokumenten

✅ Recall – Anteil gefundener relevanter Dokumente an allen relevanten Dokumenten

✅ MAP (Mean Average Precision) – Durchschnittliche Precision über mehrere Queries

✅ NDCG (Normalized Discounted Cumulative Gain) – Bewertet auch die Position relevanter Treffer in der Rangliste

Warum wird das Benchmarking-Verfahren häufig auch kritisiert?

Das Benchmarking-Verfahren im Information Retrieval wird trotz seiner Nützlichkeit oft kritisiert, weil es die Realität nur eingeschränkt abbildet und methodische Schwächen haben kann. Die wichtigsten Kritikpunkte sind:

⚠️ 1. Eingeschränkte Realitätsnähe

Testkollektionen sind oft künstlich oder statisch.
Nutzerverhalten in echten Suchsituationen ist viel komplexer als in Tests.

⚠️ 2. Relevanz ist schwer zu definieren

Relevanz wird meist als binär oder grob abgestuft bewertet.
In der Praxis hängt Relevanz aber stark von:
- Kontext
- Suchintention
- Zeitpunkt
- Individuellem Nutzerbedarf ab.

⚠️ 3. Overfitting auf Benchmarks

Entwickler können Systeme so optimieren, dass sie nur auf Benchmarks gut abschneiden, aber nicht unbedingt in echten Anwendungen.

was ist DIR im IR?

DIR im Information Retrieval

DIR steht im Information Retrieval meist für Document Information Retrieval oder wird als Kürzel für bestimmte IR-Modelle mit Dokumentrepräsentation verwendet – je nach Vorlesung oder Literatur kann die genaue Bedeutung leicht variieren. Am häufigsten meint DIR aber einen probabilistischen Ansatz zur Dokumentbewertung.

🧠 Grundidee von DIR

DIR-Modelle versuchen zu berechnen, wie relevant ein Dokument für eine Suchanfrage ist, indem sie:

Dokumentinhalte statistisch analysieren
Wahrscheinlichkeiten für Relevanz berechnen
Termhäufigkeiten und Verteilungen berücksichtigen

Das Ziel ist, Dokumente nach Relevanzwahrscheinlichkeit zu ranken.

Was ist der Unterschied zwischen Intra- und Inter-Query-Parallelism?

Unterschied zwischen Intra-Query-Parallelism und Inter-Query-Parallelism

Beide Begriffe stammen aus der Parallelisierung von Such- oder Datenbankanfragen, unterscheiden sich aber darin, was parallelisiert wird.

🔎 Intra-Query-Parallelism (Parallelisierung innerhalb einer Anfrage)

👉 Hier wird eine einzelne Anfrage in mehrere Teilaufgaben zerlegt und parallel verarbeitet.

Beispiele:

Eine Suchanfrage wird auf mehrere Dokumentpartitionen verteilt.
Verschiedene Teiloperationen einer komplexen Query laufen gleichzeitig.

Ziel:

Antwortzeit einer einzelnen Anfrage verkürzen.

Typischer Einsatz:

Sehr große Datenmengen
Komplexe Suchanfragen

🔎 Inter-Query-Parallelism (Parallelisierung zwischen Anfragen)

👉 Hier werden mehrere verschiedene Anfragen gleichzeitig verarbeitet.

Beispiele:

Mehrere Nutzer stellen gleichzeitig Suchanfragen.
Jede Anfrage wird unabhängig auf einem anderen Prozessor oder Server bearbeitet.

Ziel:

Durchsatz des Systems erhöhen (mehr Anfragen pro Zeit).

Typischer Einsatz:

Websuchmaschinen
Systeme mit vielen gleichzeitigen Nutzern

⭐ Kurzvergleich

Merkmal	Intra-Query-Parallelism	Inter-Query-Parallelism
Was wird parallelisiert?	Teile einer Anfrage	Mehrere Anfragen
Hauptziel	Antwortzeit reduzieren	Durchsatz erhöhen
Komplexität	Höher	Niedriger
Beispiel	Große Datenbankquery	Viele Nutzeranfragen

🧠 Merksatz

Intra = innerhalb einer Query
Inter = zwischen mehreren Queries

Was sind die Vor- und Nachteile einer termbasierten Partitionierung?

Termbasierte Partitionierung – Vor- und Nachteile

Bei der termbasierten Partitionierung wird der Index nach Suchbegriffen (Terms) aufgeteilt. Jeder Server oder Knoten speichert also nur die Dokumente bzw. Indexeinträge für bestimmte Wörter.

✅ Vorteile

1. Gute Lastverteilung bei Suchanfragen

Häufig angefragte Begriffe können auf mehrere Knoten verteilt werden.
Dadurch werden Engpässe reduziert.

2. Effiziente Verarbeitung von Term-Queries

Besonders gut für einfach strukturierte Suchanfragen mit wenigen Begriffen.

3. Gute Skalierbarkeit bei großen Vokabularen

Neue Begriffe können relativ leicht auf neue Partitionen verteilt werden.

4. Reduzierter Speicherzugriff pro Anfrage

Ein Server muss nur einen Teil des gesamten Index durchsuchen.

❌ Nachteile

1. Ungleichmäßige Datenverteilung (Hotspot-Problem)

Sehr häufig vorkommende Begriffe können:
- einzelne Knoten überlasten
- zu ungleichmäßiger Rechenlast führen.

2. Komplexe Mehrterm-Anfragen sind teuer

Wenn eine Anfrage mehrere Begriffe enthält:
- Ergebnisse müssen von vielen Partitionen zusammengeführt werden.

3. Aufwendiges Index-Management

Updates und Reorganisation des Index sind schwieriger.

4. Schlechter für semantische oder kontextuelle Suche

Funktioniert besser mit reinen Termstatistiken als mit komplexen Bedeutungsmodellen.

⭐ Kurz gesagt

👉 Vorteil: Schnell bei einfachen Suchanfragen und gut skalierbar. 👉 Nachteil: Kann Lastprobleme erzeugen und ist weniger effizient bei komplexen Queries.

Überlegen Sie, für welche Aufgaben im IR sich das MapReduce-Verfahren besonders gut einsetzen lässt.

was ist das MapReduce-Verfahren ?

Das MapReduce-Verfahren

MapReduce ist ein Programmier- und Verarbeitungsmodell, das verwendet wird, um sehr große Datenmengen verteilt und parallel zu verarbeiten. Es wird häufig in verteilten Systemen und Big-Data-Analysen eingesetzt.

Die Idee ist, eine große Aufgabe in zwei Hauptschritte aufzuteilen: 👉 Map-Phase 👉 Reduce-Phase

Was ist der Unterschied zwischen einer Klassifikation, einer Taxonomie und einem Thesaurus?

Unterschied zwischen Klassifikation, Taxonomie und Thesaurus

Diese drei Begriffe werden häufig im Information Retrieval und in der Wissensorganisation verwendet, unterscheiden sich aber stark in Struktur, Ziel und Anwendung.

🧠 1. Klassifikation

👉 Ziel: Inhalte in vordefinierte Kategorien einordnen.

Ist meist hierarchisch organisiert.
Wird verwendet, um Dokumente oder Objekte systematisch zu ordnen.
Kategorien sind oft fest vorgegeben (z. B. in Bibliothekssystemen).

✅ Beispiel:

Wissenschaft → Naturwissenschaft → Informatik → KI

👉 Fokus: Ordnung und Einteilung

🌳 2. Taxonomie

👉 Ziel: Hierarchische Darstellung von Beziehungen zwischen Begriffen oder Objekten.

Sehr strukturiert, meist als Baumstruktur.
Zeigt Beziehungen wie:
- Oberbegriff (Generalisierung)
- Unterbegriff (Spezialisierung)

✅ Beispiel:

Tier
- Säugetier
  - Hund

👉 Fokus: Semantische Hierarchien

📖 3. Thesaurus

👉 Ziel: Darstellung von semantischen Beziehungen zwischen Begriffen.

Nicht nur Hierarchien, sondern auch:
- Synonyme
- Antonyme
- Verwandte Begriffe

✅ Beispiel:

Auto → PKW (Synonym)
Auto ↔ Fahrzeug (Oberbegriff)

👉 Fokus: Bedeutungsbeziehungen

⭐ Kurzvergleich

Merkmal	Klassifikation	Taxonomie	Thesaurus
Hauptziel	Einordnung	Hierarchische Struktur	Semantische Beziehungen
Struktur	Oft hierarchisch	Streng hierarchisch	Netzwerkartige Beziehungen
Beziehungen	Kategorien	Über-/Unterordnung	Bedeutung, Synonyme usw.
Flexibilität	Mittel	Niedrig	Hoch

🧾 Merksatz

Klassifikation = Ordnen
Taxonomie = Hierarchisch strukturieren
Thesaurus = Bedeutung vernetzen

Wofür wird das RDF gebraucht?

RDF (Resource Description Framework) ist ein Standard zur Beschreibung und Strukturierung von Daten im Web, entwickelt vom World Wide Web Consortium. Es wird vor allem im Kontext des Semantic Web eingesetzt, um Informationen maschinenlesbar und miteinander verknüpfbar zu machen.

🧠 Hauptzwecke von RDF

1. Strukturierte Datenbeschreibung

RDF beschreibt Daten in Form von Subjekt – Prädikat – Objekt-Tripeln. 👉 Beispiel:
Auto – hatFarbe – Rot

2. Integration unterschiedlicher Datenquellen

Daten aus verschiedenen Systemen können leichter kombiniert werden.

3. Unterstützung des Semantic Web

Maschinen können Bedeutung aus Daten ableiten, nicht nur Text speichern.

4. Wissensrepräsentation

Wird genutzt für:
- Ontologien
- Wissensgraphen
- Verknüpfte offene Daten (Linked Open Data)

⚙️ Beispiel für RDF-Tripel

Subjekt: Buch
Prädikat: hatAutor
Objekt: Autorname

→ Ermöglicht semantische Verbindungen zwischen Informationen.

⭐ Kurz gesagt

👉 RDF wird verwendet, um Daten standardisiert, vernetzt und maschinenverständlich zu speichern und auszutauschen.

Wofür wird das RDFS gebraucht?

Wofür wird RDFS gebraucht?

RDFS (RDF Schema) ist eine Erweiterung von World Wide Web Consortium RDF-Standards, die verwendet wird, um die Struktur und Bedeutung von RDF-Daten genauer zu beschreiben.

Während RDF Daten in Form von Tripeln speichert, ermöglicht RDFS eine semantische Modellierung von Beziehungen zwischen Daten.

🧠 Hauptaufgaben von RDFS

1. Definition von Klassen und Hierarchien

RDFS erlaubt die Modellierung von:
- Klassen
- Unterklassenbeziehungen

👉 Beispiel:

Fahrzeug → Oberklasse
Auto → Unterklasse von Fahrzeug

2. Beschreibung von Eigenschaften

Eigenschaften (Properties) können:
- Typen zugeordnet werden
- Domänen und Wertebereiche erhalten

👉 Beispiel:

hatAutor gilt für Klasse Buch
Zielwert ist z. B. ein Person-Objekt

3. Semantische Einschränkungen

Definiert:
- Welche Objekte zu welchen Klassen gehören
- Welche Werte zulässig sind

4. Unterstützung für Wissensrepräsentation

Wird häufig in:
- Wissensgraphen
- Semantic-Web-Anwendungen
- Linked-Data-Systemen

eingesetzt.

⭐ Kurz gesagt

👉 RDFS erweitert RDF um semantische Strukturinformationen, insbesondere Klassen, Hierarchien und Eigenschaftsdefinitionen.

Welche Query-Forms kennt SPARQL und wofür werden diese eingesetzt?

Query-Forms in SPARQL

SPARQL ist die Abfragesprache für RDF-Daten und wurde vom World Wide Web Consortium standardisiert. Sie wird verwendet, um Daten aus RDF-Wissensgraphen abzufragen, zu manipulieren und zu analysieren.

SPARQL kennt mehrere wichtige Query-Formen:

🔎 1. SELECT – Daten abfragen (am häufigsten genutzt)

👉 Wird verwendet, um bestimmte Variablenwerte auszugeben.

Liefert tabellarische Ergebnisse.
Vergleichbar mit SQL-SELECT.

✅ Beispielanwendung:

Suche nach Autoren eines Buches
Abfrage bestimmter Attribute

👉 Typischer Einsatz: Informationssuche

📊 2. CONSTRUCT – Neue RDF-Graphen erzeugen

👉 Erstellt neue RDF-Daten aus bestehenden Daten.

Wandelt Abfrageergebnisse in RDF-Tripel um.
Wird für Datenintegration genutzt.

✅ Beispielanwendung:

Ableitung neuer Wissensstrukturen
Transformation von Datenquellen

👉 Typischer Einsatz: Wissensgenerierung

✔️ 3. ASK – Wahrheitsprüfung

👉 Prüft nur, ob eine bestimmte Bedingung erfüllt ist.

Gibt true oder false zurück.
Sehr effizient, da keine Ergebnislisten erzeugt werden.

✅ Beispielanwendung:

Existiert ein bestimmtes Dokument?
Gibt es einen bestimmten Zusammenhang?

👉 Typischer Einsatz: Validierung von Aussagen

🧾 4. DESCRIBE – Ressourcenbeschreibung

👉 Liefert Informationen über eine Ressource.

Gibt RDF-Daten zurück, die mit einer Ressource verbunden sind.
Struktur hängt von der Datenquelle ab.

✅ Beispielanwendung:

Informationen zu einer Entität abrufen
Wissensgraph-Navigation

👉 Typischer Einsatz: Explorative Suche

⭐ Kurzvergleich

Query-Form	Ergebnis	Einsatz
SELECT	Tabellenartige Ergebnisse	Informationsabfrage
CONSTRUCT	Neue RDF-Graphen	Datenintegration
ASK	Wahr/Falsch	Prüfung von Bedingungen
DESCRIBE	RDF-Beschreibung	Exploration

🧠 Merksatz

👉 SELECT = Suchen 👉 CONSTRUCT = Erzeugen 👉 ASK = Prüfen 👉 DESCRIBE = Anschauen

Wofür kann NLP im IR eingesetzt werden?

Einsatz von NLP im Information Retrieval

Natural Language Processing (NLP) wird im Information Retrieval verwendet, um natürliche Sprache besser zu verstehen, zu verarbeiten und für Suchsysteme nutzbar zu machen. Besonders in Forschung und Entwicklung – etwa bei der Association for Computational Linguistics – spielt die Kombination von NLP und IR eine große Rolle.

🔎 Hauptanwendungsbereiche von NLP im IR

1. Verbesserung der Suchanfragen (Query Understanding)

Korrektur von Rechtschreibfehlern
Erkennen von Synonymen
Interpretation der Suchintention

👉 Beispiel:

„Handy kaufen“ ≈ „Smartphone erwerben“

2. Semantische Suche

Nicht nur Wortübereinstimmung, sondern Bedeutung wird berücksichtigt.
Konzepte statt nur Keywords.

👉 Beispiel:

Suche nach „Auto“ findet auch Dokumente über „Fahrzeug“.

3. Stemming und Lemmatisierung

Reduziert Wörter auf Grundformen.
Verbessert die Trefferquote.

👉 Beispiel:

läuft, laufen, gelaufen → Lauf

4. Dokumentanalyse und Indexierung

Extraktion von:
- Entitäten
- Schlüsselbegriffen
- Themenstrukturen

Hilft beim Aufbau besserer Suchindizes.

5. Ranking-Verbesserung

NLP hilft, die Relevanz von Suchergebnissen besser zu bewerten, z. B. durch Kontextanalyse.

6. Frage-Antwort-Systeme

Wird in modernen Suchassistenten eingesetzt.
Versteht natürliche Fragen und liefert konkrete Antworten.

⭐ Kurz gesagt

👉 NLP im IR wird genutzt, um Suchanfragen und Dokumente semantisch zu verstehen, Suchergebnisse zu verbessern und Nutzerintentionen besser zu interpretieren.

Was macht das Ontology-Based-IR aus?

Ontology-Based IR ist ein Ansatz im Information Retrieval, bei dem Ontologien zur Verbesserung des Suchprozesses und des semantischen Verständnisses von Daten verwendet werden. Standards und Technologien für Ontologien werden z. B. vom World Wide Web Consortium entwickelt und gefördert.

🧠 Grundidee

Klassische IR-Systeme arbeiten hauptsächlich mit Wortübereinstimmung.
Ontology-Based IR arbeitet mit Bedeutungs- und Konzeptbeziehungen.
Ziel ist eine semantische Suche statt reiner Keyword-Suche.

⚙️ Kernbestandteile

1. Nutzung von Ontologien

Ontologien definieren:
- Begriffe
- Klassen
- Beziehungen zwischen Konzepten

👉 Beispiel:

„Auto“ ist ein Unterbegriff von „Fahrzeug“.

Typische Beschreibungssprachen sind z. B.:

Web Ontology Language (OWL)

2. Semantische Interpretation von Queries

Suchanfragen werden auf Konzepte statt auf Wörter abgebildet.
Synonyme und verwandte Begriffe werden automatisch berücksichtigt.

3. Wissensbasierte Indexierung

Dokumente werden mit semantischen Metadaten angereichert.
Nutzung von Wissensgraphen und strukturierten Wissensmodellen.

4. Verbesserte Ergebnisqualität

Bessere Trefferrelevanz durch Kontextverständnis.
Reduziert Mehrdeutigkeiten in der Sprache.

⭐ Vorteile

✅ Höhere Suchpräzision ✅ Besseres Verständnis von Nutzerintentionen ✅ Gute Integration in Semantic-Web-Technologien

❌ Nachteile

❌ Hoher Aufwand beim Aufbau von Ontologien ❌ Wartung und Aktualisierung komplex ❌ Teilweise schwierig zu skalieren

🧾 Kurz gesagt

👉 Ontology-Based IR nutzt semantische Wissensmodelle, um Bedeutung statt nur Wörter zu vergleichen und Suchergebnisse zu verbessern.

Was ist ein semantisches Maß?

Ein semantisches Maß ist eine Methode, um die Bedeutungsähnlichkeit oder semantische Distanz zwischen Begriffen, Dokumenten oder Konzepten zu messen – also nicht nur, ob Wörter gleich sind, sondern wie eng ihre Bedeutung zusammenhängt.

Semantische Maße messen Bedeutung statt nur Wortgleichheit.

Was unterscheidet strukturbasierte und merkmalsbasierte Ansätze?

🧠 Strukturbasierte vs. merkmalsbasierte Ansätze

Diese beiden Ansätze werden oft in Information Retrieval, KI und Wissensrepräsentation verwendet, unterscheiden sich aber darin, wie Ähnlichkeit oder Bedeutung modelliert wird.

🌳 Strukturbasierte Ansätze

👉 Vergleichen Strukturen und Beziehungen zwischen Konzepten.

🔎 Grundidee

Bedeutung ergibt sich aus der Position und den Verbindungen in einer Struktur (z. B. Ontologien, Graphen, Hierarchien).

✅ Typische Merkmale

Nutzen Wissensgraphen oder hierarchische Modelle
Berücksichtigen:
- Ober-/Unterbegriffe
- Relationen zwischen Konzepten

👉 Beispiel:

„Auto“ und „Fahrzeug“ sind ähnlich, weil sie in einer Hierarchie nah beieinander liegen.

⭐ Vorteile

✅ Gute semantische Interpretation ✅ Geeignet für Wissensmodelle

❌ Nachteile

❌ Aufbau und Pflege der Struktur ist aufwendig

🔬 Merkmalsbasierte Ansätze

👉 Vergleichen Eigenschaften oder Attribute von Objekten.

🔎 Grundidee

Bedeutung wird durch Merkmalsvektoren oder statistische Eigenschaften beschrieben.

✅ Typische Merkmale

Verwendung von:
- Wortfrequenzen
- Embeddings
- Vektorraumdarstellungen

👉 Beispiel:

Zwei Dokumente sind ähnlich, wenn sie viele gleiche Wörter oder ähnliche Kontextvektoren haben.

⭐ Vorteile

✅ Gut skalierbar ✅ Funktioniert gut mit großen Datenmengen

❌ Nachteile

❌ Semantische Beziehungen werden weniger explizit modelliert

📊 Kurzvergleich

Merkmal	Strukturbasiert	Merkmalsbasiert
Basis	Beziehungen und Struktur	Eigenschaften und Features
Modelltyp	Graph-/Hierarchiemodelle	Vektor- oder Statistikmodelle
Beispiel	Ontologien	TF-IDF, Embeddings
Stärke	Semantik	Skalierbarkeit

🧾 Merksatz

👉 Strukturbasiert = Bedeutung durch Beziehungen 👉 Merkmalsbasiert = Bedeutung durch Eigenschaften

was ist und macht der invertierten Index

Der invertierte Index – was ist das und was macht er?

Der invertierte Index ist eine zentrale Datenstruktur im Information Retrieval und wird z. B. von Suchmaschinen genutzt, um Suchanfragen schnell zu beantworten. Er wird häufig in Standards und Technologien verwendet, die vom World Wide Web Consortium beeinflusst sind.

🧠 Grundidee

👉 Statt für jedes Dokument zu speichern, welche Wörter es enthält, speichert der invertierte Index für jedes Wort, in welchen Dokumenten es vorkommt.

Klassischer Index:
- Dokument → Wörter
Invertierter Index:
- Wort → Dokumentliste

⚙️ Aufbau eines invertierten Index

Er besteht meist aus zwei Komponenten:

1. Vocabulary (Wortschatz)

Liste aller vorkommenden Begriffe.

2. Postings-Listen

Für jeden Begriff wird gespeichert:
- In welchen Dokumenten er vorkommt
- Oft zusätzlich:
  - Position im Dokument
  - Häufigkeit

🔎 Beispiel

Dokumente:

D1: „Information Retrieval ist wichtig“
D2: „Retrieval Systeme sind schnell“

Invertierter Index:

Information → D1
Retrieval → D1, D2
Systeme → D2

🚀 Aufgaben des invertierten Index

✅ Schnelle Suche nach Dokumenten ✅ Effizientes Ranking von Ergebnissen ✅ Unterstützung von Booleschen und semantischen Suchanfragen

⭐ Vorteile

Sehr schnelle Suchoperationen
Gute Skalierbarkeit bei großen Textmengen

❌ Nachteile

Hoher Speicherbedarf
Aufwendige Aktualisierung bei häufigen Änderungen

🧾 Kurzmerksatz

👉 Invertierter Index = Wort → Dokumente statt Dokument → Wörter

AUFGABEN VON INFORMATION RETRIEVAL

Retrieval Task: „the task executed by the information system in response to a user request. It is basically of two types: ad hoc and filtering”

Ad Hoc Retrieval: Die User eines IR-Prozesses spezifizieren hierbei einen Informationsbedarf mittels einer Suchanfrage, welche ein automatisiertes Verfahren startet. Die Ausgabe des Verfahrens besteht dabei in einer klassischen IR Anwendung in einer Menge relevanter Dokumente mit textuellem Inhalt.

Filtering beschreibt die Aufgabe, bei der ein relativ statischer Informationsbedarf besteht, jedoch der Dokumentbestand sich beständig erweitert (z. B. das Durchsuchen von E-Mail-Listen).

Prozess des INDEXIERUNGSPROZESS

Prozess:

o Zusammenbringen aller zu berücksichtigenden Dokumente einer Dokumentkollektion

o Zerlegung der textuellen Inhalte von Dokumenten in unterscheidbare Einheiten

o Durchführung einer sprachlichen Untersuchung der identifizierten Einheiten, mit dem Ziel einer normalisierten Darstellung

o Erstellung eines invertierten Indexes

Wesentliche Komponenten für die Durchführung einer Evaluation:

Fixed set of queries (topics): Wichtig, dass Topics realistische Informationsbedürfnisse wiedergeben

Fixed set of documents (Korpus): zugrundeliegende Dokumentenbasis

Fixed set of relevance judgements: Relevanzbestimmung bzgl. verschiedener

Querys Goldstandard oder Grundwahrheit (groundtruth): Einteilung der Dokumente einer Testkollektion in relevante oder nicht

verteilten Suche - Herausforderungen an brokerbasierte Ansätze

o Ressourcenbeschreibung (resource description): Inhalte einer Kollektion müssen derart beschrieben worden sein, dass lediglich die Querys an diese Quelle weitergeleitet werden, die auch von dieser beantwortet werden können

o Ressourcenselektion (resource selection): Auf der Basis einer Datenbankbeschreibung muss automatisiert entschieden werden, welche der Kollektionen passend zur Query ist

o Ergebniszusammenführung (bzw. Merging): Ergebnisse für eine konsolidierte Ausgabe zusammengeführt werden

IR-System (Information Retrieval) bedeutet Ontologien?

Eine strukturierte, formale Beschreibung von Begriffen und ihren Beziehungen in einem bestimmten Wissensbereich.

Stell dir das wie eine „intelligente Landkarte“ eines Themengebiets vor.

🔎 Was heißt das konkret im IR?

Ein IR-System (z. B. Suchmaschinen wie Google oder wissenschaftliche Datenbanksuchen) muss verstehen:

Welche Begriffe zusammengehören
Welche Begriffe Synonyme sind
Welche Begriffe Unter- oder Oberbegriffe sind
Wie Konzepte miteinander verknüpft sind

Eine Ontologie liefert genau diese Struktur.

📚 Beispiel

Angenommen, jemand sucht nach:

„Herzinfarkt Behandlung“

Eine Ontologie weiß dann z. B.:

„Herzinfarkt“ = „Myokardinfarkt“ (Synonym)
Herzinfarkt ist eine Form von „Herzkrankheit“
„Stent“ ist eine Behandlungsmethode für Herzinfarkt
„Kardiologie“ ist das Fachgebiet

Das IR-System kann dadurch:

bessere Treffer liefern
verwandte Begriffe automatisch mit einbeziehen
relevantere Dokumente finden

Ohne Ontologie würde die Suche nur stumpf nach exakt diesen Wörtern suchen.

🧠 Warum ist das wichtig?

Ontologien helfen bei:

Semantischer Suche (Bedeutung statt nur Wörter)
Query Expansion (Suchbegriffe automatisch erweitern)
Wissensgraphen
Strukturierter Datenverarbeitung
Präziserem Ranking von Treffern

Große Wissenssysteme wie DBpedia oder Wikidata basieren stark auf ontologischen Strukturen.

💡 Kurz gesagt

Im IR sind Ontologien ein Werkzeug, um:

Bedeutung zu modellieren – nicht nur Wörter zu vergleichen.

Bates Information Seeking und Searching Model

o Bewusstsein (Awareness): das, was wir aufnehmen und lernen über passives Verhalten

o Überwachen (Monitoring): Überwachen und Stöbern sind sich ergänzende Modi. Überwachen ist direkt und passiv, während Stöbern ungerichtet und aktiv betrieben wird.

o Stöbern (Browsing): Es gibt keinen spezifischen Informationsbedarf, sondern es findet eine aktive Suche nach neuen Informationen statt.

o Suchen (Searching): ein aktives Bestreben, Antworten zu offenen Fragen zu finden oder ein Verständnis für einen neuen Sachverhalt zubekommen.

information Seeking Merkmale von Kuhltau

Das ist extrem wichtig im IR-Kontext, weil es zeigt: Informationssuche ist nicht nur technisch – sie ist ein kognitiver und emotionaler Prozess.

Hier die zentralen Merkmale klar und prüfungsrelevant zusammengefasst:

📚 Kuhlthaus Information Seeking Process (ISP)

Kuhlthau beschreibt 6 Phasen der Informationssuche. Wichtig: Jede Phase hat Gedanken, Gefühle und Handlungen.

1️⃣ Initiation (Startphase)

Situation: Problem wird erkannt Gefühle: Unsicherheit, Zweifel Gedanken: „Was genau ist mein Thema?“ Verhalten: Erste Orientierungssuche

👉 Zentrale Erkenntnis: Unsicherheit ist normal.

2️⃣ Selection (Themenwahl)

Situation: Thema wird ausgewählt Gefühle: Kurzzeitiger Optimismus Gedanken: „Das klingt machbar.“ Verhalten: Erste gezielte Suche

3️⃣ Exploration (Erkundung)

Situation: Intensive Recherche Gefühle: Verwirrung, Frustration, Unsicherheit Gedanken: Widersprüchliche Infos, Überforderung Verhalten: Viel Lesen, wenig Klarheit

👉 Kritische Phase – viele geben hier auf.

4️⃣ Formulation (Fokussierung)

Situation: Klarer Fokus entsteht Gefühle: Sicherheit wächst Gedanken: „Jetzt verstehe ich mein Thema.“ Verhalten: Gezieltere Recherche

👉 Wendepunkt im Prozess.

5️⃣ Collection (Sammlung)

Situation: Relevante Infos werden gesammelt Gefühle: Zuversicht Gedanken: Klare Struktur Verhalten: Systematisches Sammeln

6️⃣ Presentation (Abschluss)

Situation: Ergebnis wird präsentiert Gefühle: Erleichterung (oder Enttäuschung) Gedanken: Reflexion des Prozesses

Beitreten

Vorschau

Author

Clemens C.

Informationen

Zuletzt geändert
vor 3 Monaten

Kurs melden

Allgemein

Stemming

Lemmatization

🧠 Wofür genau?

1. Modellvergleich

2. Qualitätskontrolle

3. Optimierung

4. Entscheidungsunterstützung

Beispiele für typische Metriken

⭐ Einfach gesagt

Evaluationsmetriken

⚠️ 1. Eingeschränkte Realitätsnähe

⚠️ 2. Relevanz ist schwer zu definieren

⚠️ 3. Overfitting auf Benchmarks

DIR im Information Retrieval

🧠 Grundidee von DIR

Unterschied zwischen Intra-Query-Parallelism und Inter-Query-Parallelism

🔎 Intra-Query-Parallelism (Parallelisierung innerhalb einer Anfrage)

Beispiele:

Ziel:

Typischer Einsatz:

🔎 Inter-Query-Parallelism (Parallelisierung zwischen Anfragen)

Beispiele:

Ziel:

Typischer Einsatz:

⭐ Kurzvergleich

🧠 Merksatz

Termbasierte Partitionierung – Vor- und Nachteile

✅ Vorteile

1. Gute Lastverteilung bei Suchanfragen

2. Effiziente Verarbeitung von Term-Queries

3. Gute Skalierbarkeit bei großen Vokabularen

4. Reduzierter Speicherzugriff pro Anfrage

❌ Nachteile

1. Ungleichmäßige Datenverteilung (Hotspot-Problem)

2. Komplexe Mehrterm-Anfragen sind teuer

3. Aufwendiges Index-Management

4. Schlechter für semantische oder kontextuelle Suche

⭐ Kurz gesagt

Das MapReduce-Verfahren

Unterschied zwischen Klassifikation, Taxonomie und Thesaurus

🧠 1. Klassifikation

🌳 2. Taxonomie

📖 3. Thesaurus

⭐ Kurzvergleich

🧾 Merksatz

🧠 Hauptzwecke von RDF

1. Strukturierte Datenbeschreibung

2. Integration unterschiedlicher Datenquellen

3. Unterstützung des Semantic Web

4. Wissensrepräsentation

⚙️ Beispiel für RDF-Tripel

⭐ Kurz gesagt

Wofür wird RDFS gebraucht?

🧠 Hauptaufgaben von RDFS

1. Definition von Klassen und Hierarchien

2. Beschreibung von Eigenschaften

3. Semantische Einschränkungen

4. Unterstützung für Wissensrepräsentation

⭐ Kurz gesagt

Query-Forms in SPARQL

🔎 1. SELECT – Daten abfragen (am häufigsten genutzt)

📊 2. CONSTRUCT – Neue RDF-Graphen erzeugen

✔️ 3. ASK – Wahrheitsprüfung

🧾 4. DESCRIBE – Ressourcenbeschreibung

⭐ Kurzvergleich

🧠 Merksatz

Einsatz von NLP im Information Retrieval

🔎 Hauptanwendungsbereiche von NLP im IR

1. Verbesserung der Suchanfragen (Query Understanding)

2. Semantische Suche

3. Stemming und Lemmatisierung

4. Dokumentanalyse und Indexierung

5. Ranking-Verbesserung

6. Frage-Antwort-Systeme

⭐ Kurz gesagt

🧠 Grundidee

⚙️ Kernbestandteile

1. Nutzung von Ontologien

2. Semantische Interpretation von Queries