Was bedeutet Assesment?
Die Festlegung von Kriterien von Datenständen inklusive der Messung, wie gut diese Bedingungen erfüllt sind.
Erstellung eines Berichts zur Anzahl und Verteilung von Fehlern in den Datenbeständen.
Probleme der Informationsintegration
kurz:
Probleme der Informationsintegration können z.B. dann entstehen, wenn Daten physisch oder logisch verteilt sind oder die Systeme jeweils eigene Schnittstellen zur Verfügung stellen.
ausführlich:
Ursachen für Datenfehler
Dateneingabe und Erfassung,
Alterung,
Transformation,
Integration.
Auswirkungen von Datenfehlern
Wirtschaftlicher Schaden,
Image Schaden,
Rechtliche Probleme,
Ethische Probleme.
Datenintegration besteht aus?
Datenreinigung
Duplikaterkennung
Datenfusion
Probleme bei der Datenintegration
Vollständigkeit
Datenfehler
Duplikate
Qualität
Datensätze müssen inhaltlich fehlerfrei und zueinander konsistent sein
alle relevanten Informationen müssen im integrierten Datenbestand enthalten sein
Knowledge Discovery in Databases (KDD-Prozess)
Beschreibt beschreibt, wie relevantes
Wissen aus den Datenbeständen operativer IS gewonnen werden kann.
ETL Prozess
Extrakt
Welche Datensätze aus den Datenquellen sind für die Datenintegration überhaupt relevant?
Aufgaben
Identifikation der relevanten Datenquellen
Erstellung eines globalen Datenschemas
Abfragen der relevanten Datensätze
Transform
Wie müssen diese aufbereitet werden, sodass sie zum integrierten Datenbestand passen?
Schema-Mapping und semantische Integration
Ermittlung und Beseitigung von Datenfehlern
Erkennung und Fusion von Duplikaten
Lord
Load
Wie können die aufbereiteten Datensätze zu einem Datenbestand zusammengeführt werden?
Zusammenführung aller Datensätze zu einem
einheitlichen, aggregierten Datenbestand
Einfügen des Datenbestands in ein DBMS
Was bedeutet Data Scrubbing (Datenreiningung)?
Einzelne Datensätze so aufzubereiten, dass diese für weitere Schritte des Datenintegrationsprozesses nutzbar werden
Die Dichte einer Realtion d(R)
Anteil an Nicht-Nullwerten in R
Die Deckung c(R) einer Relation
Anteil relevanter Realweltobjekte, die in einer Realation (R) vorkommen
Precision und Recall
Precision und Recall nehmen Werte zwischen 0 und 1 an :)
Physische Veteilung
(Probleme bei der Informationsintegration - Verteilung)
Die Datenbasis ist auf verschiedene Systeme verteilt
(Probleme bei der Informationsintegration - Heterogenität)
Modellierungsheterogenität
Die Daten unterscheiden sich in Modell, Struktur und Bedeutung
(Probleme bei der Informationsintegration - Autonomie)
Schnittstellenautononomie
Das System stellt seine eigene Zugriffsschnittstelle bereit
Logische Verteilung
Gleiche Datensätze sind an mehreren Orten gespeichert
Design-/ Zugriffsautonomie
Das System entscheidet selbst, wem es welche Daten bereitstellt
Technische Heterogenität
Es gibt unterschiedliche technische Zugriffsverfahren
Probleme bei der Physischen Verteilung
Physische Lokalisierung
Über welchen Mechanismus können die unterschiedlichen Datensätze identifiziert werden?
Adressierung mehrerer Schemata
Wie kann mit einem einheitlichen Verfahren auf verschiedene Schemata zugegriffen werden?
Optimierung verteilter Anfragen
Wie schnell können die Daten über ein lokales Netzwerk oder das Internet abgerufen werden?
Probleme bei der logischen Verteilung
Logische Lokalisierung
In welchem System liegen die für die Analyse relevanten Daten überhaupt?
Redundanzen und Inkonsistenzen
Wie soll mit mehrfach gespeicherten (und ggf. inkonsistenten) Datensätzen verfahren werden?
Wie lässt sich erkennen, dass zwei verschiedene Datensätze denselben Sachverhalt beschreiben?
Zuletzt geändertvor 6 Tagen