Wie könnte man Data Mining begrifflich beschreiben? Welches sind die wesentlichen Merkmale des Data Minings?
Data Mining ist die systematische Anwendung statischer Methoden zur automatisierten Auswertung großer Datenbestände, mit dem Ziel neue, verborgene Muster, Regelmäßigkeiten und Trends zu erkennen
Data Mining ist Teil eines übergeordneten Prozesses der als Knowledge und discovery in Database bezeichnet wird (KDD)
Aus welchen einzelnen Prozessschritten besteht der Data Mining Prozess (KDD Prozess: Knowledge Discovery Process nachFayyad)?
Schritt 0: Datenbank
Schritt 1: Auswahl (Zieldaten)
Schritt 2: Vorverarbeitung
Schritt 3: Transformation
Schritt 4: Data Mining (Muster)
Schritt 5: Interpretation (End: Wissen)
Eines der bekanntesten Vorgehensmodelle für das Data Mining ist das CRISP-DM Modell (Cross-industry standard process fordata mining). Beschreiben sie das Modell mit Hilfe einer zeichnerischen Skizze.
1. Business Understanding <-> Data Understanding -> 3. Data Prepatarion<->4. Modeling -> Evaluation->6. DeploymentVerbindung von 5->1 wichtig! Das ganze ist ein Kreislauf!!!!!
Die verschiedenen Data-Mining-Ziele können anhand unterschiedlicher Kriterien unterteilt werden. Wie lautet die gängigeEinteilung in die verschiedenen Gruppen welche spezifische Data-Mining-Ziele verfolgen?
Clusterung (Segmentierung, Gruppierung)
Abhängigkeitsendeckung (Assoziationsanalyse)
Regession
Klassifikation
Abweichungserkennung (Aussreisser - Erkennung)
CAR KA
Data Mining kommt zwar häufig bei großen Datenmengen zum Einsatz, ist aber nicht auf Big Data beschränkt. Das Data Miningbeschreibt den eigentlichen Vorgang der Analyse von Daten in Bezug auf relevante Zusammenhänge und Erkenntnisse undkann auch auf Datenbasis zur Anwendung kommen. Die Datenbasis kann in einem zentralen Data Warehouse (DWH), einemData Mart, einem ODS, einem Data Lake oder aus externen Quellen kommen. Beschreiben und erklären sie die einzelnenDatenquellen?
DWH: Feingranular, integrierte Datenbestände, langfristige Aufbewahrung. Nutzt ETL Prinzip, Schema on write, Struktur für direkte Analyse
Data Mart: Teilauszüge der Daten aus der Datenbank, werden in einer Effizienten Speicherform für Auswertungen gehalten. Vorteil: Schneller Datenzugriff, geringere Datenmenge, Zugriffsschutz. Nachteile: Redundanz, höherer Verarbeitungsaufwand.
Operational Data Store: Große Vewandschaft mit der Basis Datenbank, detaillierte aber nicht verdichtete Daten, für kurze Zeit (mehrere Tage) gehalten., regelmäßige Aktualisierungen. Löschungen bei keinem bedarf. Keine Historie. Es ist für Auswertungen vorgesehen.
Data Lake: Schme on read, Daten werden im Rohformat abgespeichert. Die Speicherung erfolgt in einem eigenem System oder Repository. Es ist die Grundlage für Big Data Analysen. Kann sehr große Datenmengen speichern. Kann strukturierte, semi strukturierten, unstrukturierte, Binäre Daten speichern.
Wo liegt der grundsätzliche Unterschied zwischen einem Data Warehouse (DWH) und einem Operational Data Store (ODS)nach folgenden Kriterien: Design Ziel/Konzept, Haupteinsatzzweck (Ebene Entscheidungsunterstützung), Zeit (Alter der Daten),Aggregation (Verdichtungsgrad), Aktualität/Änderungen (Zeitaktualität), Abfragen (Schwierigkeit), Ziel (Nutzung).
Die Bereitstellung von Daten für Analysen kann auf die beiden Arten ELT bzw. ETL erfolgen. Was bedeuten die beidenAbkürzungen und wo liegt der grundsätzliche Unterschied?
ETL Bereich Datawarehouse / Extract transform Load. Daten müssen erst in ein Schema gebracht werden, bevor sie abgespeichert werden. ETL wird zum Engpass wenn hohes Volumina und unstrukturierte Daten vorliegen. Schema on write Prinzip
ELT Extract Load Transform. Bereich Datalake / Nutzt ein veteiltes Dateisystem. Daten werden aus dem Quellsystem extrahiert und gespeichert ohne sofort transformiert zu werden. Die Daten werden erst in Form/Schema gebracht wenn sie abgerufen werden / Schema on read Prinzip
Beschreiben und erklären Sie die Datenspeichern mittels eines „Data Lakes". Welches sind die dominanten Merkmale einesData Lakes?
Methode zur speicherung von Daten, Speicherung erfolgt in eigenen System oder Repositories, große Datenmengen, Rohdaten, vor abspeicherung nicht validiert oder unformatierter, Daten Erst bei Verwendung werden diese in ein anderes Format umgewandelt. (Schema on Read) Kann strukturierte, semi-strukturierte, unstrukturierte und binäre Daten abspeichern. Grundlage für Big Data Analysen
Stellen Sie die beiden Konzepte zur Datenspeicherung eines Data Warehouses (DWH) und Data Lakes gegenüber. FolgendeKriterien sollten sie berücksichtigen: Datenquellen, Datenformate, Datentransformation- aufbereitung, Beständigkeit,Integration, Analysemöglichkeiten.
Last changed4 months ago