Volume
Sehr hohe Menge an Daten, welche nicht einfach verarbeitet werden können
=> Verarbeitung muss Parallel erfolgen
=> Verarbeitungsproblematik relevanter als Speicherplatz
Velocity
Daten müssen in sehr schneller Geschwindigkeit verarbeitet werden
BigData
Ist eine Informationssammlung, welche alle 3 Vs erfüllt.
Dadurch werden bessere Einblicke/Analysen, Entscheidungsfindungen sowie Prozess-Automatisierungen ermöglicht.
=> Enthält sowohl strukturierte als auch unstrukturierte Daten
Variety
Daten haben keine festen Strukturen. In den Daten sind sowohl strukturierte als auch Unstrukturierte Daten vorhanden
Business Intelligence
Oberbegriff zur Bereitstellung von Infrastruktur, Anwendungen und Werkzeugen um Entscheidungsfindungen zu verbessern.
=> Enthält nur Strukturierte Daten
Algorithmus
Ein Algorighmus ist eine Formel oder ein Verfahren um Daten zu Analyisieren
Stapelverarbeitung
Effiziente Methode zur Verarbeitung großer Datenmengen. Die “Worker” nehmen ihre Arbeit parallel aus einem Stapel heraus.
Dark Data
Sind Daten, welche gesammelt, aber nur sehr gering oder gar nicht verarbeitet und Analysiert werden.
Data Mining
Mit Hilfe von Data Mining möchte man Muster und Zusammenhänge in sehr großen Datensätzen finden.
Hadoop
Ist eine Software, welche Daten komprimiert.
Hierbei werden große Datenmengen in kleinere Datenmengen unterteilt und berechnet. Das Ergebnis wird anschließend zusammengeführt.
Data Lake
Ein Data Lake ist eine sehr große Samlung von Rohdaten eines Unternehmens.
Im Vergleich zum Datawarehouse enthalten diese Daten strukturierte als auch unstrukutrierte Daten
Distributed File System (DFS)
Ist ein Dateisystem, welches den Vorteil hat, dass es sich auf mehreren Physischen Speicherlösungen erstrecken kann. Bei der Verarbeitung der Daten muss die Anwendung so nicht schauen, auf welchen pysischen Gerät die Daten liegen.
ETL
ETL ist eine Abkürzung für einen Prozess:
=> Extrahieren von Rohdaten
=> Transformation uns Säuberung der Daten
=> Lagerung der aufgearbeiteten Daten in einems epraten System
Machine Learning
Systeme welche sich ständig anpassen, verbessern und daraus lernen. Dies geschieht durch hinzugabe mehrerer Trainingsdaten.
Stram Processing
Verarbeitung von Strams mit großer Datenmenge in Echtzeit
Data Science
Ziel von Data Science ist es Wissen und Einblicke aus verschiedenen Typen von Daten zu erhalgen
Analyse
Einblicke aus Rohdaten gewinnen
Deskriptive Analyse
Ist die beschriebende Statistik. Sie beschriebt den Datensatz.
=> Was passierte?
Predictive Analyse
Analyse von vergangen Mustern um Prognosen zu erstellen. Nutzung von Mashine Learnung und Data Mining um diese zu erstellen.
=> Was wird passieren? / Was könnte aufgrund vergangener Beobachtungen passieren?
Presktiptive Analyse
Analyse von Daten um optimale Lösung auszuwählen. Dies kann z.B. durch einen Entscheidungsbaum realisiert werden
=> Welche Entscheidung soll getroffen werden?
Zuletzt geändertvor 2 Jahren