Was ist Cholera?
bacterial disease of small intestine,
mostly spreads through infecged water and supplies
Was ist Miasma und wie höängt es mit Data zusammen?
Damals fehlende Daten und Wissen über Medizin, Bakterien und Viren
-> Miasma als Erklärung “übler Dunst”
Was ist das Soho Survey über Cholera?
1854 von John Snow gesammelte Daten über die in Soho erkrankten Cholera patienten
-> kartierte die Fälle und stellte sie in Beziehung zu den versch. Wasserquellen wobei viele Krankheitsfälle im Zusammenhang mit einer best. Pumpe gestellt werden konnten.
1866 wurde dann die Boil Notice erstellt
Was ist die Epidemiology?
Die Epidemiologie ist jene wissenschaftliche Disziplin, die sich mit der Verbreitung sowie den Ursachen und Folgen von gesundheitsbezogenen Zuständen und Ereignissen in Bevölkerungen oder Populationen beschäftigt
Nenne zwei Beispiel von Krankheiten, welche erfolgreich mit Daten und Wissen und der Epidemiology bekämpft werden konnten
Auf diese Weise konnten Krankheiten wie
Polio und
Smallpox bekämpft werden
Wie werden Daten mittlerweile gespeichert?
Auf Harddrives, da auf Notizblättern zu wenig Platz ist für die Menge an Daten
Wie viel Daten sind in versch. großen Plattformen gespeichert?
Wikimedia - 24TB
Twitter - 8TB pro Tag
LSST - 15TB pro Tag
Facebook - 600TB pro Tag
Large Hadron Collider - 1PB pro Tag
NSA - 29PB pro Tag
Google - 100PB pro Tag
Internet - 2,4EB pro Tag
-> Daten sind schon über 10 Jahre alt, also wahrscheinlich wesentlich mehr heuzutage
Wie viel GB hat ein Wiki?
Ein Wiki hat 51GB Daten
Was sind die V’s of Big Data?
Volume - Size
Velocity - Speed
Variety - Forms
Veracity - Uncertainty
Wofür wird Big Data verwendet?
Alles mögliche
-> Navigation
-> Umfragen
-> Personalisierung
-> Wissen
-> Vergleiche (bspw. Sternenbildveränderung über Jahre)
Wie können Daten auftreten?
(Semi-) structured - DBs, HTML, Java, etc.
Unstructured - comments, tweets, text documents
Everything inbetween
Wie wird mit Daten umgegangen, wie werden diese verarbeitet?
Data Management - indexing, querying, joins, aggregation
Natural Language Processing - keyword search, topic extraction, entity recognition, etc.
Data Mining and Statistics - pattern recognition, classification, regression, recommendations, etc.
Something else/ Mix
Warum ist Skalierung ein wichtiger Faktor?
Da die Laufzeit abhängig von der Menge an Untersuchungen ist und der Kraft des Geräts/ der Geräte
Was ist der Unterschied zwischen Datenintensiv und Rechenintensiv?
Datenintensiv - günstige Algorithmen, große Inputs
Rechenintensiv - teure Algoirthmen, kleine Inputs
-> kein Schwarz-Weiß
Was kostet das transportieren von Daten?
Warum sollte man seine Daten möglichst von versch. Maschinen verwalten lassen. falls dies ohne Nachteil geschieht?
Für den Fall, dass ein Netzwerk/ Node einen Defekt hat
Warum kann man nicht immer verteilen?
Amdahls law:
Was sind weiter Schwierigkeiten bei verteilten Systemen?
oft komplex
man muss mehrere Maschinen an versch. Orten zu versch. Zeiten mit versch. Probemen warten
Fehler können oft erst später festgestellt werden
Was kann bei verteilten System (Storage and Processing) helfen?
Frameworks uns Abstractions
Last changed6 days ago