1. a)Wie könnte man Data Mining begrifflich beschreiben?
b) Welches sind die wesentlichen Merkmale des Data Minings?
E v D
A V
A s K
TP v KDD
a)
Data Mining ist die systematische Anwendung analytischer Methoden zur automatisierten Auswertung großer Datenbestände mit dem Ziel, neue Muster zu erkennen.
Fokus auf der deskriptiven Analyse von Daten.
Die Begriffe Data Mining und Knowledge Discovery in Databases werden synonym verwendet.
Chat PDF: Seite 106 4 merge
---------------------------------------------------------------
b)
Merkmale Data Mining:
1. die Entdeckung von bisher unbekannten Zusammenhängen in den Daten.
2. die automatisierte Verarbeitung großer Datenmengen,
3. die Anwendung von statistischen und KI Methoden
4. Data Mining ist Teil eines Prozesses namens Knowledge Discovery in Databases (KDD)
2. Aus welchen einzelnen Prozessschritten besteht der Data Mining Prozess (KDD Prozess: Knowledge Discovery Process nach Fayyad)?
A D
V D
T
D M
I
E
1. Auswahl der Daten
2. Vorverarbeitung der Daten
3. Transformation der Daten in ein geeignetes Format
4. Data Mining zur Entdeckung von Mustern in den Daten
5. Interpretation der Ergebnisse
6. Extraktion von Wissen
Chat PDF: Seite 109 4 merge (+Image)
3. Eines der bekanntesten Vorgehensmodelle für das Data Mining ist das CRISP-DM Modell (Cross-industry standard process for data mining).
Beschreiben sie das Modell mit Hilfe einer zeichnerischen Skizze.
B U
D U
M
De
1. Business Understanding
2. Data Understanding
3. Data Preparation
4. Modeling
5. Evaluation
6. Deployment
Chat PDF: Seite 110 4 merge (+Image)
4. Die verschiedenen Data-Mining-Ziele können anhand unterschiedlicher Kriterien unterteilt werden.
Wie lautet die gängige Einteilung in die verschiedenen Gruppen welche spezifische Data-Mining-Ziele verfolgen?
Kl
Reg
Clu
Asso
Aus
1. Klassifikation:
Bisher nicht in Klassen zugeordnete Elemente die Klassen zugeordnet werden.
2. Regression:
Ein Regressionsmodell wird zur Vorhersage von numerischen Werten eingesetzt.
3. Clusterung (Segmentierung, Gruppierung):
Es geht darum, ähnliche Objekte in homogene Gruppen zu unterteilen.
4. Assoziationsanalyse (Abhängigkeitsentdeckung):
Korrelation zwischen Variablen.
5. Ausreißer -Erkennung (Abweichungserkennung):
Identifizierung von ungewöhnlichen Datensätzen.
Chat PDF: Seite 111 4 merge
5. Data Mining kommt zwar häufig bei großen Datenmengen zum Einsatz, ist aber nicht auf Big Data beschränkt. Das Data Mining beschreibt den eigentlichen Vorgang der Analyse von Daten in Bezug auf relevante Zusammenhänge und Erkenntnisse und kann auch auf Datenbasis zur Anwendung kommen.
Die Datenbasis kann in einem
a) zentralen Data Warehouse (DWH),
b) einem Data Mart,
c) einem ODS,
d) einem Data Lake oder
e) aus externen Quellen
kommen.
Beschreiben und erklären sie die einzelnen Datenquellen?
DWH Transformiert Daten aus Unterschiedlichen quellen in Strukturen die eine direkte Analyse ermöglichen (Schema on Write)
Seite 117 4 merge
Datenwürfel (Data Mart)
• Teile der Daten aus der Basisdatenbank werden in einer effizienten Speicherform für Auswertungen gehalten.
Chat PDF: Seite 123 4 merge
c)
Operational Data Store (ODS)
Detaillierte, aber NICHT verdichtete Daten werden für kurze Zeit für Analysezwecke gehalten.
Seite 123 4 merge
d)
1) Data Lake:
- Speichert und Verwaltet daten im Originalformat
- Schema on Read
- Sehr Großer Speicher für Daten aus Unterschiedlichen Quellen
Seite 100 4 merge, Seite 117 4 merge
e)
Externe Quellen
- Externe Quellen (z.B. Google Maps) können genutzt werden.
- Deren Datenhaltung ist unbekannt aber auch nicht Relevant
6. Wo liegt der grundsätzliche Unterschied zwischen einem Data Warehouse (DWH) und einem Operational Data Store (ODS) nach folgenden Kriterien:
a) Design Ziel/Konzept,
b) Haupteinsatzzweck (Ebene Entscheidungsunterstützung),
c) Zeit (Alter der Daten),
d) Aggregation (Verdichtungsgrad),
e) Aktualität/Änderungen (Zeitaktualität),
f) Abfragen (Schwierigkeit),
g) Ziel (Nutzung).
7. Die Bereitstellung von Daten für Analysen kann auf die beiden Arten ELT bzw. ETL erfolgen.
a) Was bedeuten die beiden Abkürzungen und
b) wo liegt der grundsätzliche Unterschied?
1. ETL (Extrakt Transform Load)
2. ELT (Extrakt Load Transform)
Der Unterschied zwischen ETL und ELT:
Ob die Transformation Vor und Nach den Laden Stattfindet
Chat PDF: Seite 119 4 merge
8. a) Beschreiben und erklären Sie die Datenspeichern mittels eines „Data Lakes".
Arten von Daten:
S
ss
u
B
b) Welches sind die dominanten Merkmale eines Data Lakes?
Ein Data Lake ist ein Datenspeicher, der Rohdaten in ihrem Originalformat Speichert und Verwaltet.
Bei der Verwendung werden die Rohdaten in ein anderes Format umgewandelt ("Schema on Read").
Data Lake kann alle Arten von Daten Speichern:
1. Strukturiert,
2. Semi Strukturiert,
3. Unstrukturiert,
4. Binär
Chat PDF: Seite 116 4 merge
Data Lake:
9. Stellen Sie die beiden Konzepte zur Datenspeicherung eines Data Warehouses (DWH) und Data Lakes gegenüber.
Folgende Kriterien sollten sie berücksichtigen:
a) Datenquellen,
b) Datenformate,
c) Datentransformation- aufbereitung,
d) Beständigkeit,
e) Integration,
f) Analysemöglichkeiten.
Hollich fragen für Datenquellen in DWH von Bild: Unterschieliche Quellen da es auch nicht operative Statistiken haben kann
Zuletzt geändertvor 3 Monaten