Was assoziiert man mit Data-Analytics?
Big Data
Analysetools
Vorhersagen vornhemen
Social Media
Statistiken
—> Die Suche nach der Nadel im Heuhaufen
Was ist der Heuhaufen? Was ist die Nadel?
Der Heuhaufen sind Unmengen von Daten
Die Nadel könnte sein:
Gruppen ähnlicher Objekte
Automatisches Sortierung von Daten nach Inhalt
Erkennung bestimmter Muster
Ähnlichkeit von Textdokumenten
Welchen Themenfeldern kann man Data Science zuordnen?
Dem Themenfeld Data-Science können wir uns also aus Sicht der Mathematik (Statistik), der Daten-Wissenschaften (z.B. Datenbanken) oder der Informatik zuwenden.
Welche Methoden des Machine Learning gibt es? Welche haben wir uns angeschaut?
Erläutere das 3V-bzw. 5V-Modell für Big Data
V olume —> Datenmengen
V ariety —> unterschiedliche Datentypen
V elocity —> Geschwindigkeit, performante Algorithmen
V alidity / Veracity —> Datenqualität, Mehrwert der Daten, keine fehlerhaften Daten
V alue —>Wert für jeweiligen Zweck
Erläutere was unter Volumen im 5V Modell zu verstehen ist
Es bezieht sich auf die Größe von Big Data. Ob Daten als Big Data gelten oder nicht, hängt vom Volumen ab. Das schnell zunehmende Datenvolumen ist auf Cloud-Computing-Verkehr, IoT, mobilen Verkehr usw. zurückzuführen.
Erläutere was unter Velocity im 5V Modell zu verstehen ist
Es bezieht sich auf die Geschwindigkeit, mit der die Daten gesammelt werden. Dies ist vor allem auf IoTs, mobile Daten, soziale Medien usw. zurückzuführen.
Im Jahr 2000 erhielt Google 32,8 Millionen Suchanfragen pro Tag. Im Jahr 2018 erhielt Google 5,6 Milliarden Suchanfragen pro Tag!
Ungefähre monatliche aktive Benutzer ab 2018:
Facebook: 2,41 Milliarden
Instagram: 1 Milliarde
Twitter: 320 Millionen
LinkedIn: 575 Millionen
Erläutere was unter Variety im 5V Modell zu verstehen ist
Es bezieht sich auf strukturierte, halbstrukturierte und unstrukturierte Daten aufgrund unterschiedlicher Datenquellen, die entweder von Menschen oder von Maschinen generiert werden.
Strukturierte Daten: Es handelt sich um traditionelle Daten, die organisiert sind und der formalen Datenstruktur entsprechen. Diese Daten können in einer relationalen Datenbank gespeichert werden. Beispiel: Kontoauszug mit Datum, Uhrzeit, Betrag usw.
Halbstrukturierte Daten: Es handelt sich um halborganisierte Daten. Es entspricht nicht der formalen Struktur von Daten. Beispiel: Protokolldateien, JSON-Dateien, Sensordaten, CSV-Dateien usw.
Unstrukturierte Daten: Es handelt sich nicht um organisierte Daten und sie passen nicht in die Zeilen- und Spaltenstruktur einer relationalen Datenbank. Beispiel: Textdateien, E-Mails, Bilder, Videos, Voicemails, Audiodateien usw.
Erläutere was unter Value im 5V Modell zu verstehen ist
Nur weil wir viele Daten gesammelt haben, sind sie wertlos, es sei denn, wir gewinnen einige Erkenntnisse daraus. Der Wert bezieht sich darauf, wie nützlich die Daten bei der Entscheidungsfindung sind. Wir müssen den Wert der Big Data mithilfe geeigneter Analysen extrahieren.
Erläutere was unter Validity/ Veracity im 5V Modell zu verstehen ist
Es bezieht sich auf die Sicherung der Qualität/Integrität/Glaubwürdigkeit/Genauigkeit der Daten. Da die Daten aus mehreren Quellen stammen, müssen wir die Daten auf ihre Richtigkeit prüfen, bevor wir sie für geschäftliche Erkenntnisse verwenden.
Wofür steht CRISP-DM?
Wofür wird das Vorgehensmodell verwendet?
CRISP -DM
Cross Industry Standard Process for Data Mining
__________________________________________________________________
—> Bereitstellung von einheitlichem Prozessmodell für Data Mining
—> Anwendungs- und Herstellerneutralität
—> branchenübergreifende Nutzung
—> Bereitstellung Schritt-für-Schritt-Anleitung für Data Mining
Erläutere die 6 Phasen des CRISP-DM
1) Business Understanding
—> konkrete Ziele& Anforderungen für Data Mining festlegen
—> Formulierung Aufgabenstellung und Beschreibung der geplanten groben Vorgehensweie
2) Data Understanding
—> Überblick über Daten & Qualität verschaffen
—> Probleme der Qualität der Daten in Bezug auf vorherig festgelegte Aufgabenstelle benennen
3) Data Preparation
—> finalen Datensatz erstellen als Basis für Modellierung
4) Modeling
—> geeignete Methoden des Data Minings für die Aufgabenstellung werden auf erstellten Datensatz angewandt
—> Optimierung Parameter und Erstellung mehrerer Modelle
5) Evaluation
—> Abgleich der erstellten Datenmodelle mit der Aufgabenstellung und Auswahl des besten Modells
6) Deployment
—> Aufbereitung gewonnener Ergebnisse zur Präsentation und für Entscheidungsprozess des Auftraggebers
Last changeda year ago