Was sind die Lernzeile in diesem Kapitel?
Frage: Was ist die Definition von Datenqualität und welche Konsequenzen und Umgangsweisen gibt es im Zusammenhang mit mangelnder Datenqualität?
Definition Datenqualität:
Subjektiv: Gebrauchstauglichkeit oder "fitness for use", d.h. die Eignung der Daten für die vorgesehenen Verwendungszwecke.
Objektiv: Der Abstand zwischen der von einem Informationssystem dargestellten Datenansichten und der tatsächlichen Realität.
Konsequenzen mangelnder Datenqualität:
Hohe Prozesskosten
Opportunitätskosten, also entgangene Gewinne durch ineffiziente Datenverarbeitung.
Ursachen für Opportunitätskosten:
Wiederholte Dateneingabe, Korrekturen von Daten, verlorene Aufträge etc.
Möglicher Umgang mit Ausreißern:
Entfernen der Ausreißer.
Spezifische Auswahl der Ausreißer für eine gesonderte Ausreißer-Erkennung.
Nicht filtern der Ausreißer – hierbei ist der Kontext wichtig für die Entscheidungsfindung.
Dimensionalität der Datenqualität:
Frage: Welche 4 Dimensionen der Datenqualität gibt es und welche Maßnahmen können zur Verbesserung angewendet werden? (Beispiele noch hinzufügen)
Dimensionen der Datenqualität:
Präzision/Genauigkeit: Die Nähe der Daten zum realen Zustand, d.h. korrekte und fehlerfreie Informationen.
Maßnahmen:
Auf Datenbankebene: Filterung von unzulässigen Zuständen wie z.B. Ausreißern.
Auf Prozessebene: Minimierung von Messfehlern, Prozess-Redesign zur Vermeidung von Fehlern.
Vollständigkeit: Die Fähigkeit, jeden relevanten realen Zustand im Datensatz abzubilden; das Ausmaß, in dem alle notwendigen Werte in Daten übernommen werden.
Interpolation fehlender Werte, systematisches Eliminieren der Ursachen für fehlende Daten.
Konsistenz: Die Einhaltung der für den Datensatz definierten semantischen Regeln.
Auf Datenbankebene: Automatische Integritätsprüfungen und Fehlererkennung, Festlegung zulässiger Bereiche/Regeln.
Auf Prozessebene: Gesammelte Durchführung von Prozessänderungen zur Gewährleistung der Konsistenz.
Aktualität: Das Alter der Daten und die Verzögerung, bis Zustandsänderungen in Daten übernommen werden.
Auf Datenbankebene: Kennzeichnung veralteter Daten.
Auf Prozessebene: Sicherstellung einer angemessen hohen Abtastrate der Sensoren und Betrieb eines Netzwerks mit hoher Bandbreite für schnelle Datenübertragung.
Frage: Welche anwendungsbezogenen Dimensionen der Datenqualität gibt es im Hinblick auf Nutzerbedürfnisse und wie werden diese charakterisiert?
· Integrität: Präzision, Vollständigkeit, Konsistenz, Existenz (Daten für alle relevanten Objekte/Zustände vorhanden + vollständig, werden real gemessen)
· Verfügbarkeit: Menge (je mehr hochwertige Daten desto besser), Wert (der Daten), Vielfältigkeit
· Interpretierbarkeit (verständlich + aussagekräftig)
· Relevanz: Aktualität: Alter, Volatilität (Häufigkeit der Veränderung), Geschwindigkeit (Abtastrate); Nutzungskriterien 1-n
Kapitel: Ursachen für Probleme und Fehler
Was sind Ausreißer und nach welchen zwei Arten lassen sie sich beschreiben?
Ausreißer = Beobachtung / Teilmengen an Beobachtungen, die inkonsistent mit den übrigen Beobachtungen aus dem Datensatz zu sein scheint
· Anomaly: ein einzelner Datenpunkt unterscheidet sich von restlichen Datenpunkten
· Noise: Datenpunkt zeigt zufällig verteiltes Rauschen in den Daten mit anderen Punkten
Nenne 6 Quellen für Ausreißer.
Menschliche Fehler: Tippfehler, Fehlercodes von fehlenden Daten werden als echte Daten benutzt, …
Eingeschränkte Prozesskontrolle: natürliche Varianz der Stichprobe; kaum/nicht kontrollierbare & beeinflussbare Prozesse führen zu signifikant abweichenden Werten
Stichprobenfehler: z.B. falsche Stichprobenzuordnung
Gerätefehler: falsche Kalibrierung, defekte Sensoren
Verhaltensänderung des Systems: falsche Einstellung von Prozessparametern, Änderung des Systems
Systemfehler/Systemstörung: Softwarefehler (z.B. falsche Uhrzeit), falsche Systemeinstellung (z.B. falsche Einheit)
Frage: Welche zwei Lösungsansätze gibt es zur Verbesserung der Datenqualität und welche Ziele verfolgen sie?
Filterung:
Entfernt fehlerhafte Werte.
Führt Daten nur zu, wenn sie Kriterien der Weiterverarbeitung erfüllen.
Steigert Präzision, Vollständigkeit, Aktualität, Relevanz.
Ziele: Datensatzgröße reduzieren, Fehler eliminieren, repräsentative Zustände/Objekte beibehalten.
Interpolation:
Fügt fehlende Werte in einem Datensatz hinzu.
Anwendbar als linear, akima, quadratic, cubic, spline, etc.
Ziel: Vollständigkeit der Daten sicherstellen.
Welche drei Methoden der Ausreißererkennung gibt es?
Frage: Welche Methoden zur Ausreißererfassung und welche zugehörigen Vorgehensweisen sind im Dokument beschrieben?
Beispiel rechnen
Zuletzt geändertvor 10 Monaten