Was sind die 4 V’s?
Für was stehen die 4 V’s?
Volume (Datenmenge):
Beschreibt die extreme Datenmenge. Immer größere Datenmengen sind zu speichern und verarbeiten.
Variety (Datenvielfalt):
Beschreibt die Vielfalt der unterschiedlichsten Datenstrukturen: strukturiert, semi-strukturiert und unstrukturiert.
Velocity (Geschwindigkeit):
Beschreibt die erhöhte Geschwindigkeit mit der die Daten produziert, aber gleichzeitig auch verarbeitet werden müssen.
Veracity (Richtigkeit):
Daten kommen aus verschiedenen Quellen teilweise nicht in der gewünschten Qualität an und können daher nicht wie gewollt eingesetzt werden oder müssen aufwendig nachbearbeitet werden.
Was sind die 3 Major pieces (Hauptstücke) von Big Data?
Was versteht man unter ihnen?
Applications (Anwendungen)
Branchenspezifische Anwendungen (Gesundheit, Einzelhandel, Telekommunikation, Finanzen)
Analytics (Analytik)
Analytik, Visualisierung, BI, maschinelles Lernen
Infrastructure (Infrastruktur)
Hadoop, NoSQL: speichern, verarbeiten Daten - oft auch analysieren
Was sind die Arten von Analysen?
Batch:
Daten wernden gesammelt und verarbeitet -> Ergebnisse werden erstellt
Antwort auf: Was ist passiert und Warum?
z.B. Einkaufsverhalten
Real Time:
Zugriff auf Informationen nahezu ohne Latenz
Antwort auf: Was passiert jetzt?
z.B. Betrugserfassung
Predictive:
Vorhersage zukünftiger Möglichkeiten und Trends
Antwort auf: Was wird als nächstes passieren?
z.B. Bonitätsprüfung
Was ist die Definition von Big Data?
Mit “Big Data“ werden große Mengen an Daten bezeichnet, die mit speziellen Lösungen gespeichert, verarbeitet und ausgewertet werden.
Was ist die Definition von “Data Science”?
Was gehört zu den 3 bereichen?
“Data Science“ ist ein Bereich von “Big Data“, bei dem versucht wird aus großen Mengen komplexer Daten (mit Hilfe der Mathematik, Informatik und Geschäftswissen) aussagekräftige Informationen bereitzustellen.
Informatik:
richtige software
z.B. Tableau
Programmiersprachen
z.B. python
Mathematik:
Stochastik
Geschäftswissen:
Fachgebiet wo es eingesetzt wird
Kennzahlen und co.
Was ist der unterschied zwischen structured (strukturierten) und unstructured (unstrukturierten) Data (Daten)?
Structured Data (strukturierte Daten) sind grundsätzlich alles was in relationale Datenbanken eingebracht werden kann und so organisiert werden kann, dass sie über tabellen in Beziehungen zu anderen Daten stehen.
Unstructured Data (unstrukturierte Daten) ist alles andere.
Was ist ETL?
ETL steht für extract (extrahieren), transform (transformieren), load (laden).
Extraktion
der relevanten daten aus verschieden Quellen
Transformation
der Daten in das Schema und Format der Zieldatenbank
Laden
der Daten in die Zieldatenbank
Zuletzt geändertvor 2 Jahren