undefined

by Jonas G.

Definieren Sie Data Mining.

Data-Mining ist ein Prozess, bei dem eine Vielzahl von Datenanalysewerkzeugen eingesetzt wird, um Muster und Beziehungen in Daten zu entdecken, die für gültige Vorhersagen genutzt werden können.

Welche Kategorien von Data-Mining-Aktivitäten gibt es?

Descriptive Data-Mining: Es erstellt ein Modell des Datensatzes, das den gegebenen Datensatz beschriebt.
Predictive Data-Mining: Es werden auf der Grundlage des vorhandenen Datensatzes neue, nicht triviale Informationen gewonnen.

Was ist ein Modell im Sinne des Data Mining?

Ein Modell ist einfach ein Algorithmus oder ein Satz von Regeln, der eine Sammlung von Eingaben mit einem bestimmten Ziel oder Ergebnis verbindet.

Was ist ein Data Warehouse in Bezug auf Data Mining?

Ein Data Warehouse ist eine themenorientierte, integrierte, zeitbezogene und nicht flüchtige Datenbank zur Unterstützung von Managemententscheidungen.

Das DWH gibt dem Unterehmen ein “Gedächtnis”, Data Mining ermöglicht die Intelligenz.

Wofür steht KDD und was ist das?

KDD steht für Knowledge Discovery in Data Bases und ist eine automatische, explorative Analyse und Modellierung von großen Datenbeständen.

Dabei werden gültige, neue, nützliche und verständliche Muster in großen und komplexen Datensätzen identifiziert.

Was ist der Zweck von KDD?

Der Zweck von KDD ist die Interpretation von Mustern, Modellen und eine tiefgehende Analyse der Informationen, die eine Organisarion gesammelt hat, um bessere Entcheidungen zu treffen.

KDD ist ein iterativer und interaktiver Prozess aus 9 Schritten.

Nennen und beschreiben Sie diese Schritte.

1. Verstehen des Datensatzes:

Ziele der Analyse definieren
Eigenschaften, Grenzen und Regeln der Daten verstehen

2. Datenauswahl:

Relevante Daten nach Verfügbarkeit, Zugänglichkeit, Bedeutung und Qualität auswählen

3. Vorverarbeitung und Reinigung:

Daten auf Fehler und Inkonsistenzen überprüfen
Fehlende Werte behandeln
Ausreißer, verrauschte, redundante und minderwertige Daten entfernen

4. Datentransformation:

Daten für Data-Mining-Algorithmen vorbereiten
Qualität der Daten durch Transformationen verbessern (z.B. Dimensionalitätsreduktion, Diskretisierung)

5. Auswahl der Data-Mining-Aufgabe:

Festlegen der Art des Data-Mining (z.B. Klassifikation, Clustering, Assoziationsregel-Mining)
Basierend auf den Zielen und den vorherigen Schritten

6. Auswahl des Data-Mining-Algorithmus:

Geeigneten Algorithmus für die gewählte Aufgabe auswählen
Parameter des Algorithmus anpassen

7. Anwendung des Data-Mining-Algorithmus:

Den Algorithmus auf die vorbereiteten Daten anwenden
Den Algorithmus ggf. mehrfach ausführen und Parameter optimieren

8. Evaluierung:

Gefundene Muster und Regeln auf ihre Gültigkeit und Nützlichkeit bewerten
Einfluss der Vorverarbeitungsschritte auf die Ergebnisse analysieren

9. Nutzung der gewonnenen Erkenntnisse:

Wissen in ein anderes System integrieren und anwenden
Auswirkungen der Anwendung des Wissens messen
Herausforderungen bei der Implementierung des Wissens in einem realen Umfeld bewältigen

Was ist CRISP-DM und was umfasst es?

CRISP-DM steht für “Cross Industry Standard Process for Data Mining” und ist ein Data-Mining-Prozess bestehend aus 6 Schritten.

Business Understanding
Data Understanding
Data Preparation
Modeling
Evaluation
Deployment

Nennen Sie 3 typische Risiken, die mit der Anwenung von Data Mining verbunden sind.

Datenschutzprobleme
Sicherheitslücken
Datenmissbrauch

Was sollte man allgemein immer bei der Auswertung von Daten beachten?

Computer machen Fehler.
Computer machen genau das, was man Ihnen sagt.
Auswertungen ergeben nicht immer Sinn.
Verschiedene Probleme brauchen verschiedene Lösungen.

Nennen SIe 5 Data Mining Tools.

Rapid Miner
KNIME
SAS Data Mining
Oracle BI
Alteryx

Wie können fehlerhafte Daten bzw. Diskrepanzen entstehen?

Erzeugung, Übermitteln, Speichern, Laden und Verarbeiten der Daten
z.B. schlecht gestaltete Dateneingabeformulare, menschliches Versagen, absichtliche Fehler, Datenverfall, inkonsistente Darstellungen oder Codes, Fehler in den Instrumenten, Systemfehler, Datenintegration

Welche Arten von Fehlern gibt es?

Zufällige Fehler:
- Nicht vorhersehbare Fehler ohne Systematik, die zufällig auftreten und einzelne Messwerte betreffen.
- Ausreißer, fehlende Daten, ungültige Daten, Rauschen
Systematische Fehler:
- Fehler mit einer gewissen Systematik oder einem Muster, die mehrere Daten einer Messreihe betreffen.
- Abweichungen in allen Messwerten, gleichbleibende Abweichungen.

Was sind zufällige Fehler?

Zufällige Fehler sind nicht vorhersehbare Fehler ohne eine Systematik, von denen wir nicht wissen, ob, wann und wo diese auftreten.

Was sind Ausreißer?

Ausreißer sind einzelne Daten, die sich deutlich von den übrigen Daten unterscheiden.

Was sind systematische Fehler?

Systematische Fehler sind Fehler, die eine gewisse Systematik bezüglich ihres Auftretens oder ihrer Auswirkungen aufweisen und meist mehrere Daten einer Messreihe betreffen.

Wie können systematische Fehler auftreten?

Wie kann mit den systematischen Fehlern in der Regel umgegangen werden?

Messgeräte nicht richtig kalibriert
falsche Skalierung
äußere Einflüsse auf die Messung
fehlerhafte Formeln

Umgang durch einen Korrekturfaktor oder eine Korrekturformel.

Wie können zufällige Fehler in den Daten vermieden oder gefunden werden?

eher statische Werte: Ober- und Untergrenzen für Werte
eher dynamische Werte: Clusteranalyse und Ausschluss von Clustern

Nennen Sie 5 Vorgehensweisen zum Umgang mit einzelnen fehlerhaften und fehlenden Daten.

Fehlerlisten
Fehlerwerte
Korrektur oder Schätzung der Werte
Entfernen ganzer Merkmalsvektoren
Entfernen ganzer Merkmale

Welche Verfahren gibt es zur Korrektur oder Schätzung einzelner Werte?

Ersetzen durch den Mittelwert, den Median, das Minimum oder das Maximum der korrekten Werte.
Ersetzen durch einen Wert, der an diesen angrenzt.
Ersetzen durch einen Wert, der das Ergebnis einer linearen Interpolation mit äquidistanten Zeitschritten ist.
Ersetzen durch einen Wert, der das Ergebnis einer linearen Interpolation mit nicht äquidistanten Zeitschritten ist.
Ersetzen durch einen Wert ersetzt, der das Ergebnis einer nicht lineraren Interpolation ist.
Ersetzen durch einen geschätzten Wert, der das Ergebnis einer Regressionsanalyse ist.
Wert wird durch einen Filter korrigiert, der auf Grundlage der gesamten Datenmenge den Verlauf glättet, sodass ein begradigter Verlauf der Daten entsteht.

Was ist Rauschen und handelt es sich im einen zufälligen oder einen systematischen Fehler?

Rauschen ist ein zufälliger Fehler oder eine zufällige Varianz in einer Messgröße.

Es gehört zu den zufälligen Fehlern, kann aber auf Grund gewisser Eigenschaften meist gut erkannt werden.

Was ist ein Filter?

Ein Filter ist ein System, das bestimmte Eigenschaften (Charakteristika) eines Signals modifiziert, z. B. her vorhebt oder unterdrückt.

Typischer weise sind Filter dynamische Systeme und sind frequenzselektiv, d. h. sie sperren bestimmte Frequenzbereiche eines Signals oder lassen diese passieren

Was sind die häufigsten Filter-Arten und wie sind sie zu beschreiben?

Tiefpassfilter: nur Daten werden erfasst, die unterhalb eines Schwellwertes liegen
Hochpassfilter: oberhalb eines Schwellwertes
Bandpassfilter: innerhalb eines bestimmten Frequenzbereiches, also zwischen einem Maximal- und einem Minimalwert

Welche Möglichkeiten gibt es, Diskrepanzen zu erkennen?

Metadaten

Datentyp und Domäne des Attributs
zulässige Werte

Grundlegende statistische Datenbeschreibungen

Mittelwert, Median, Modus
Daten symmetrisch oder verzerrt, Bandbreite
Standardabweichung (Werte, die mehr als zwei Standardabweichungen vom Mittelwert für ein bestimmtes Attribut abweichen, können als potenzielle Ausreißer gekennzeichnet werden)
Bekannte Abhängigkeiten zwischen den Attributen

Regeln

Einzigartigkeitsregel besagt, dass sich jeder Wert des gegebenen Attributs von allen anderen Werten für dieses Attribut unterscheiden mus
Konsekutivregel besagt, dass es zwischen dem niedrigsten und dem höchsten Wert für das Attribut keine falschen Werte geben darf und dass alle Werte auch eindeutig sein müssen (z. B. wie bei Prüfnummern)

Null-Regel spezifiziert die Verwendung von Leerzeichen, Fragezeichen, Sonderzeichen oder anderen Zeichenfolgen, die die Null-Bedingung anzeigen können (z. B. wenn ein Wert für ein bestimmtes Attribut nicht verfügbar ist), und wie solche Werte behandelt werden sollen

Beschreiben Sie den Datenbereinigungsprozess.

Welche Arten von Tools gibt es zur Datenbereinigung?

Data-Scrubbing-Tools nutzen einfaches Domänenwissen (z. B. Kenntnisse über Postadressen und Rechtschreibprüfung), um Fehler zu erkennen und Korrekturen in den Daten vorzunehmen. Diese Tools stützen sich auf Parsing- und Fuzzy-MatchingTechniken, wenn sie Daten aus mehreren Quellen bereinigen.
Data-Auditing-Tools finden Diskrepanzen, indem sie die Daten analysieren, um Regeln und Beziehungen zu entdecken und Daten zu ermitteln, die gegen diese Bedingungen verstoßen. Sie sind Varianten von Data-Mining-Tools. Sie können z. B. statistische Analysen ver wenden, um Korrelationen zu finden, oder Clustering, um Ausreißer zu identifizieren.

Welche 4 Punkte sind besonders bei der Datenintegration zu beachten?

Identifikationsproblem
Redundanzen und Korrelationen
Tupel-Duplikate
Erkennung und Auflösung von Datenwertkonflikten

Warum ist Datenreduktion wichtig für Data Mining?

Techniken zur Datenreduzierung können angewandt werden, um eine reduzierte Darstellung des Datensatzes zu erhalten, die vom Volumen her viel kleiner ist, aber die Integrität der Originaldaten weitgehend beibehält.

Das heißt, dass das Data-Mining mit dem reduzierten Datensatz effizienter sein sollte und dennoch die gleichen (oder fast die gleichen) analytischen Ergebnisse liefert.

Was sind die Ziele der Datenreduktion?

Kostenreduzierung
Performanceerhöhung
Reduzierung irrelevanter Daten (Dimensionen)
Reduzierung redundanter Daten (Dimensionen)

Welche 3 Strategien gibt es zur Datenreduktion?

Dimensionalitätsreduzierung
Reduzierung der Anzahl
Datenkompression

Welche Methoden gibt es zur Dimensionalitätsreduktion und was umfassen sie?

Wavelet-Transformationen:

Transformieren die Originaldaten in einen kleineren Raum.
Ermöglichen die Komprimierung von Daten durch Abschneiden schwacher Koeffizienten.
Geeignet für numerische Daten mit hoher Dimensionalität und Rauschen

Hauptkomponentenanalyse (PCA):

Sucht nach einer kleineren Anzahl von orthogonalen Vektoren, die die Daten am besten darstellen.
"Kombiniert" das Wesen der Attribute, indem es eine veränderte, kleinere Menge von Variablen verwendet.
Geeignet für numerische Daten, bei denen die Interpretation der Hauptkomponenten möglich ist.

Auswahl von Teilmengen:

Entfernt irrelevante oder redundante Attribute aus dem Datensatz.
Ziel ist es, eine minimale Menge von Attributen zu finden, die die ursprüngliche Datenverteilung so gut wie möglich wiedergeben.
Geeignet für kategoriale Daten und Datensätze mit vielen Attributen.

Welche Methoden gibt es zur Reduktion der Anzahl und was umfassen sie?

parametrisch:
- Regression und log-lineare Modelle
nicht parametrisch:
- Histogramme
- Clustering
- Stichproben (Sampling)
  - SRSWOR
  - SRSWR
  - Clusterstichprobe
  - Stratifizierte Stichprobe
- Datenwürfelaggregation

Was ist Datenkompression und welche Arten gibt es?

Transformationen, um eine reduzierte oder “komprimierte” Darstellung der Orginaldaten zu erhalten.

verlustfrei
verlusthaft

Was sind die wichtigsten Schritte zur Auswahl einer geeigneten Data-Mining-Technik?

Problem identifizieren und Hypothese formulieren.
Daten verstehen (Data understanding)
Datenaufbereitung
Sammeln der Daten (geplantes Experiment und Beobachtungsansatz)
Modell interpretieren und Schlussfolgerungen ziehen

Welche Data Mining Techniken gibt es allgemein und wie sind sie zu unterteilen?

Gerichtet:

ClassificationKlassifikation
Estimation/Schätzung
Prediction/Vorhersage

Ungerichtet:

Affinity Grouping/Affinitätsgruppierung (Assoziationsregeln)
Clustering

Beides:

Description & Profiling

Wie nennt man allgemein den Algotihmus bei der Klassifikation und wie heißen die Beobachtungen?

Klassifikator, Instanzen

Welche zwei Arten von Klassifikationsalgotihmen gibt es?

Generative Model, modelliert Verteilung der einzelnen Klassen
Discriminative Model, modelliert anhand der beobachteten Daten

Welche Schritte gibt es bei der Klassifikation und was umfassen Sie?

Trainingsphase:

Konstruktion des Modells, Lernen

Klassifizierungsphase:

Klassen bestimmen, Genauigkeit messen

Welche Arten von Klassifikatoren gibt es?

Entscheidungsbaum
Logistische Regression
Lineare Regression
Naive Bayes
Neronale Netze
K-nächste-Nachbarn
Support Vector Machines

Was sind Vor und Nachteile der Klassifikation?

Vorteile:

kostengünstig und effizient

Nachteile:

Datenschutz
Genauigkeit

Was ist der Hauptunterschied zwischen Klassifizierung und Schätzung in der Datenanalyse, und wie wird bei der Schätzung die Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse dargestellt?

Klassifizierung: diskrete Ergebnisse, feste Kategorien (z.B. ja/nein).
Schätzung: kontinuierliche Werte, Modellbildung aus Daten.
- Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse: reelle Zahl zwischen 0 und 1.
- Schwellenwerte: Festlegung zur Kategorisierung, flexible Anpassung möglich.

Was versteht man unter Vorhersage in Bezug auf Machine Learning?

Vorhersage bezieht sich auf die Nutzung von Modellen, um numerische Ausgaben basierend auf einem Trainingsdatensatz zu finden. Der Trainingsdatensatz enthält Eingaben und numerische Ausgabewerte, anhand derer der Algorithmus ein Modell erstellt. Dieses Modell sagt bei neuen Daten zukünftige numerische Werte oder geordnete Werte vorher.

Wie unterscheidet sich Vorhersage von Klassifizierung?

Während Klassifizierung Daten in vordefinierte Klassen einteilt, gibt es bei der Vorhersage keine Klassenbezeichnungen. Stattdessen wird ein kontinuierlicher oder geordneter Wert vorausgesagt. Vorhersagemodellierung bezieht zudem oft die zeitliche Beziehung zwischen den Eingabevariablen und der Zielvariablen mit ein.

Warum ist die Datenvorbereitung bei der Vorhersage so wichtig und welche Aktivitäten umfasst sie?

Die Datenvorbereitung ist entscheidend, da sie die Qualität und Genauigkeit der Vorhersagen bestimmt. Zu den wichtigsten Aktivitäten gehören:

Datenbereinigung: Reduzierung von Rauschen und Behandlung fehlender Werte.
Relevanzanalyse: Identifizierung und Entfernung irrelevanter Attribute mittels Korrelationsanalyse.
Datenumwandlung und -reduzierung: Methoden wie Normalisierung und Verallgemeinerung zur Transformation der Daten.

Welche Rolle spielt die Regression bei Vorhersageaufgaben?

In den meisten Fällen wird die Regression zur Erstellung von Vorhersagen verwendet, da sie eine Methode zur Modellierung und Analyse numerischer Daten ist, bei der die Beziehung zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen untersucht wird.

Nennen Sie ein Beispiel für eine Vorhersageaufgabe mit Data-Mining-Techniken.

Ein Beispiel wäre die Vorhersage der Höhe des Guthabens, das übertragen wird, wenn ein Kreditkartenkunde ein Angebot zur Übertragung des Guthabens annimmt.

Was ist eine Affinitätsgruppierung?

Die Affinitätsgruppierung ist ein regelbasierter Ansatz im maschinellen Lernen, um die Beziehung zwischen Elementen in einer großen Anzahl von Datensätzen zu finden. Diese Technik identifiziert Regeln, die auf historischen Daten basieren, wie zum Beispiel welche Artikel häufig zusammen gekauft werden.

Was sind Assoziationsregeln und welche drei Hauptmetriken werden zur Bewertung dieser Regeln verwendet?

Assoziationsregeln beschreiben die Muster, wie Elemente in Datensätzen zusammen auftreten. Die drei Hauptmetriken zur Bewertung sind:

Support: Gibt an, wie häufig ein Artikel oder eine Kombination von Artikeln in den Transaktionsdatensätzen vorkommt.
Confidence: Gibt an, wie oft ein Artikel B gekauft wird, wenn Artikel A gekauft wurde.
Lift: Gibt die Wahrscheinlichkeit an, dass Artikel B zusammen mit Artikel A gekauft wird, relativ zur Wahrscheinlichkeit, dass Artikel B unabhängig von Artikel A gekauft wird.

Erklären Sie den Apriori-Algorithmus.

Der Apriori-Algorithmus ist ein häufiger Algorithmus im maschinellen Lernen zur Identifikation häufiger Elementmengen und zum Lernen von Assoziationsregeln in relationalen Datensätzen. Er arbeitet durch die Erweiterung von Elementmengen und verwendet eine Breath-First-Suche sowie eine Hash-Baumstruktur zur effizienten Zählung von Elementmengen.

Wie unterscheidet sich der FP-Wachstums-Algorithmus vom Apriori-Algorithmus?

Der FP-Wachstums-Algorithmus (Frequent Pattern Growth) ist eine Verbesserung gegenüber dem Apriori-Algorithmus. Er verwendet Musterbäume (FP-Bäume) zur Darstellung häufiger Elemente, wodurch die Effizienz gesteigert und die Anzahl der benötigten Durchläufe durch die Daten verringert wird.

Was ist der Eclat-Algorithmus und wie unterscheidet er sich von Apriori?

Der Eclat-Algorithmus (Equivalence Class Transformation) verwendet eine Tiefensuche zur Entdeckung häufiger Elementmengen, im Gegensatz zur Breitensuche des Apriori-Algorithmus. Dadurch ist er schneller und besser geeignet für kleine bis mittelgroße Datensätze.

Was versteht man unter Clustering im Kontext von Machine Learning?

Clustering ist die Gruppierung von Objekten basierend auf ihren Merkmalen und Ähnlichkeiten. Es wird verwendet, um eine heterogene Population in homogenere Untergruppen oder Cluster zu unterteilen, ohne dass vordefinierte Klassen vorhanden sind.

Wie unterscheidet sich Clustering von Klassifizierung?

Beim Clustering gibt es keine vordefinierten Klassen und keine Beispiele. Die Daten werden basierend auf ihrer Selbstähnlichkeit gruppiert. Bei der Klassifizierung hingegen werden Daten auf Basis eines Modells, das an vorklassifizierten Beispielen trainiert wurde, in vordefinierte Klassen eingeordnet.

Welche Anwendungsbeispiele gibt es für Clustering?

Biologie: Klassifizierung von Pflanzen und Tieren nach ihren Eigenschaften.
Marketing: Identifizierung von Kundengruppen mit ähnlichem Verhalten.
Marktforschung, Mustererkennung, Daten- und Bildverarbeitung.
Erdbeobachtung: Identifizierung von Gebieten mit ähnlicher Landnutzung.
Internet: Clustering von Dokumenten zur Informationsfindung.

Welche Methoden des Clustering gibt es und wie unterscheiden sie sich?

Partitioning-based Method: Unterteilt Daten in k Gruppen, wobei jedes Objekt genau einer Gruppe angehört.
Density-based Method: Bildet Cluster basierend auf hoher Dichte von Datenpunkten.
Centroid-based Method: Weist Objekte der Gruppe mit dem nächsten Zentrum zu. Anzahl der Gruppen muss vorher festgelegt werden.
Hierarchical Method: Erstellt eine hierarchische Zerlegung von Datenobjekten, entweder agglomerativ (Bottom-up) oder divisiv (Top-down).
Grid-based Method: Teilt den Datenraum in ein Raster, das unabhängig von der Reihenfolge der Daten ist.
Model-based Method: Verwendet ein hypothetisches Modell basierend auf einer Wahrscheinlichkeitsverteilung zur Lokalisierung von Clustern.

Was sind die Herausforderungen bei der Anwendung von Clustering-Algorithmen?

Auswahl des geeigneten Algorithmus für die spezifische Datenstruktur.
Bestimmung der optimalen Anzahl von Clustern.
Handhabung von Rauschen und Ausreißern in den Daten.
Interpretation und Bedeutung der resultierenden Cluster.

Was ist der Unterschied zwischen harter und glatter Partitionierung im Clustering?

Bei harter Partitionierung gehört jedes Objekt genau einem Cluster an. Bei glatter Partitionierung kann ein Objekt teilweise zu mehreren Clustern gehören, was bedeutet, dass die Zugehörigkeit eines Objekts zu den Clustern graduell ist.

Wie kann Clustering als Vorstufe zu anderen Data-Mining-Aufgaben genutzt werden?

Clustering kann genutzt werden, um natürliche Gruppen oder Segmente zu identifizieren, die als Input für weitere Data-Mining-Aufgaben oder Modellierungen dienen. Beispielsweise kann es der erste Schritt bei der Marktsegmentierung sein, bevor spezifische Werbemaßnahmen für jedes Segment entwickelt werden.

Was ist Profiling?

Es wird versucht das typische Verhalten einer Person, einer Gruppe oder einer Population zu charakterisieren.

Was ist Privacy-Preserving Data-Mining?

Unter dem Begriff Privacy-Preserving Data-Mining versteht man das datenschutzkonforme Verarbeiten/Gewinnen sensibler Daten, ohne dass man auf einzelne Datenstränge (Personen) rückschließen kann.

Welche Hauptkategorien des Privacy-Preserving Data-Mining gibt es?

Veröffentlichung von Daten unter Wahrung der Privatsphäre.
Änderung der Ergebnisse von Data-Mining-Anwendungen zur Wahrung der Privatsphäre.
Abfrage-Auditing.
Kryptographische Methoden für verteilten Datenschutz.

Was ist k-Anonymität und l-Diversität?

k-Anonymität: Eine Methode, bei der Daten so transformiert werden, dass jede Person in einem Datensatz nicht von weniger als k-1 anderen Personen unterschieden werden kann. Dies wird erreicht durch die Verallgemeinerung und Unterdrückung von Attributwerten.
l-Diversität: Eine Erweiterung der k-Anonymität, die sicherstellt, dass in jeder Gruppe (oder Äquivalenzklasse) mindestens l verschiedene „wohlunterscheidbare“ Werte für das sensible Attribut vorhanden sind, um Schutz gegen Homogenitätsangriffe zu bieten.

Welche Arten von Angriffen auf die Privatsphäre gibt es?

Angriffe durch semantische Ähnlichkeit
Angriffe mit Hintergrundwissen
Homogenitätsangriffe
Skewness-Angriffe
De-Finetti-Theorem
Minimalistische Angriffe
Zeitversetzte Angriffe

Welche Möglichkeiten gibt es für PPDM bei Eingabedaten?

Eingabedaten:

Datenperturbation/Störungsdaten
- Randomisierung
- Mikroaggregation
Unterdrückung von Attributen
Datenaustausch
Kryptographie
Gruppenbasierte Anonymisierung
- k-Anonymität
- l-Vielfalt
- t-Ähnlichkeit

Welche Möglichkeiten gibt es für PPDM bei Ergebnnissen?

Ergebnisse:

Steuerung der Abfrageinferenz und Abfragekontrolle
Differenzierter Datenschutz
Ausblenden von Assoziationsregeln

Join Course

Preview

Author

Jonas G.

Information

Last changed
2 years ago

Report course