Was sind die elementaren Methoden der Datenanalyse im Kontext von Big Data?
Elementare Methoden der Datenanalyse in Big Data umfassen die
Selektion,
Vorbereitung,
Transformation,
Mustererkennung und
Interpretation von Daten.
Was versteht man unter Clusteranalyse?
Clusteranalyse ist ein Verfahren, um Ähnlichkeiten zwischen Daten zu identifizieren und diese entsprechend zu gruppieren.
Was sind Cluster in Bezug auf die Clusteranalyse?
Cluster sind Gruppen von ähnlichen Dateneinheiten, die durch die Clusteranalyse identifiziert werden.
Definiert durch
Aufzählung (= die Menge aller dem Cluster zugeordneten Datensätze)
Zentroid (= Vektor der Mittelwerte der Attributwerte seiner Datensätze)
Medoid (= typischer Vertreter der Datensätze des Clusters, beispielsweise jener Datensatz eines Clusters, das den minimalen Durchschnitt der Distanzen hat)
Wahrscheinlichkeiten (welchem Cluster ein Individuum mit welcher Wahrscheinlichkeit zuzuordnen ist)
Was ist die Klassifikation von Daten?
Die Klassifikation von Daten erfolgt, wenn neue Daten einer bereits vorhandenen Klasse zugeordnet werden sollen, basierend auf vorhandenen Erfahrungswerten.
Was ist der Unterschied zwischen instanzbasierter und modellbasierter Klassifikation?
Bei der instanzbasierten Klassifikation wird die Zuordnung anhand der Ähnlichkeit zu bereits vorhandenen Dateneinheiten vorgenommen, während bei der modellbasierten Klassifikation abstrahierte Modelle verwendet werden.
Was ist die Assoziationsanalyse und wann wird sie verwendet?
Die Assoziationsanalyse wird verwendet, um Vorhersagen zu treffen, basierend auf bereits vorhandenen Daten und assoziierten Konstellationen.
Was ist die numerische Vorhersage und wie unterscheidet sie sich von der Assoziationsanalyse?
Die numerische Vorhersage bezieht sich auf die Vorhersage von numerischen Daten und berücksichtigt in der Regel nicht die Wahrscheinlichkeit des Eintretens.
Was ist die Zeitreihenanalyse und wann wird sie eingesetzt?
Die Zeitreihenanalyse bezieht sich auf die Vorhersage von Werten in der Zukunft anhand von kontinuierlich abgetasteten Signalen in festgelegten Zeitintervallen. Sie wird beispielsweise in der Börsenanalyse oder im Vertrieb verwendet.
Wie werden Daten in Entscheidungstabellen klassifiziert?
In Entscheidungstabellen werden Datensätze direkt tabellarisch klassifiziert, wobei die Attribute spaltenweise erfasst werden.
Was ist ein Entscheidungsbaum und wie unterscheidet er sich von Entscheidungstabellen?
Ein Entscheidungsbaum ist eine gestufte Repräsentation einer Entscheidungstabelle, die hierarchische Klassifikation ermöglicht.
Was sind Entropie und Gini-Index in Bezug auf die Auswahl von Attributen für Entscheidungsbäume?
Entropie und Gini-Index sind Maße, um den Informationsgewinn bei der Auswahl von Attributen für Entscheidungsbäume zu bestimmen.
Was ist der Unterschied zwischen überwachtem und unüberwachtem Lernen?
Beim überwachten Lernen werden die Klassifikationen der Daten bereits im Voraus bekannt gemacht, während beim unüberwachten Lernen die Klassifikationen nicht bekannt sind.
Was sind nominale Daten?
Nominale Daten sind Daten, bei denen der Wertebereich keine Rangfolge aufweist und oft textbasiert oder symbolisch ist.
Was sind ordinale Daten?
Ordinale Daten sind Daten, bei denen mindestens eine Ordnungsrelation untereinander besteht, aber die Ordnung nicht notwendigerweise immanent gegeben ist.
Was sind numerische Daten?
Numerische Daten repräsentieren Werte aus dem Bereich der reellen Zahlen und können unterschiedliche Dimensionen aufweisen.
Was ist der Informationsgehalt in Bezug auf die Auswahl von Attributen für Entscheidungsbäume?
Der Informationsgehalt gibt an, wie viel Unordnung bzw. Unsicherheit durch die Auswahl eines bestimmten Attributs reduziert wird.
Was versteht man unter Data Mining und welche sind die grundlegenden Schritte in diesem Prozess?
Data Mining bezieht sich auf den Prozess, Muster und Erkenntnisse aus großen Datenmengen zu extrahieren. Die grundlegenden Schritte sind Auswahl, Vorbereitung, Transformation, Mustererkennung und Interpretation der Daten.
Welche Vor- und Nachteile hat die Verwendung von Entscheidungsbäumen in der Datenanalyse?
Vorteile: Einfache Interpretation, gute Handhabbarkeit von kategorialen und numerischen Attributen, benötigt keine Normalisierung. Nachteile: Kann zu Overfitting neigen, kann bei komplexen Datensätzen unpräzise sein.
Was sind nominale, ordinale und numerische Daten? Geben Sie jeweils ein Beispiel für jede Art von Daten.
Nominale Daten: Kategorien ohne Rangfolge, z.B. Farben (Rot, Blau, Grün).
Ordinale Daten: Kategorien mit Rangfolge, z.B. Produktbewertungen (Schlecht, Mittel, Gut).
Numerische Daten: Messwerte mit quantitativer Bedeutung, z.B. Alter (in Jahren), Einkommen (in Euro).
Was ist der Unterschied zwischen überwachtem und unüberwachtem Lernen? Geben Sie Beispiele für jede Art.
Überwachtes Lernen: Das Modell wird mit gelabelten Daten trainiert, d.h. die richtigen Antworten sind bekannt. Beispiel: Klassifikation von E-Mails in Spam und Nicht-Spam.
Unüberwachtes Lernen: Das Modell wird mit ungelabelten Daten trainiert und muss selbst Muster erkennen. Beispiel: Gruppierung von Kunden in Segmente basierend auf ihrem Kaufverhalten.
Was sind die Vor- und Nachteile von Clusteranalyse?
orteile: Identifikation von natürlichen Gruppierungen, ermöglicht Einblicke in Datenstruktur.
Nachteile: Abhängig von der Wahl der Ähnlichkeitsmaße, Empfindlich gegenüber Ausreißern.
Was sind "wenn A, dann C"-Konstrukte?
WWenn A, dann C"-Konstrukte sind logische Regeln, die besagen, dass wenn eine Bedingung A erfüllt ist, dann eine Schlussfolgerung C gezogen werden kann.
Was bedeuten A und C in Bezug auf diese Konstrukte?
A steht für "Antecedence" (Bedingung), und C steht für "Consequence" (Schlussfolgerung).
Wie werden Regeln in einem Entscheidungsbaum dargestellt?
Jeder mögliche Pfad im Entscheidungsbaum wird als eine Konjunktion von Bedingungen abgebildet.
Was umfassen Regelwerke?
Regelwerke bestehen aus Regeln und einer Datenbasis.
Was geschieht im Klassifikationsbetrieb mit den Attributvariablen? (Regeln)
Im Klassifikationsbetrieb werden die Attributvariablen durch die einströmenden neuen Datensätze instanziiert. Die Antecedences werden in die Datenbasis eingetragen, und wenn eine Regel feuert, wird die Instanz der Consequence in die Datenbasis eingetragen.
Wie unterscheiden sich Regelwerke von Entscheidungsbäumen?
Im Gegensatz zu Entscheidungsbäumen müssen bei Regelwerken nicht alle Bedingungen ausgewertet werden. Regeln bzw. Regelwerke können optimiert werden, indem überflüssige Regeln entfernt werden, insbesondere wenn das Ergebnis einer Regel als Default-Wert eingestellt ist.
Wie können Regelwerke aus Entscheidungsbäumen abgeleitet werden?
Regelwerke können aus Entscheidungsbäumen abgeleitet werden, indem jeder Pfad im Baum in eine Regel umgewandelt wird.
Was sind Assoziationsregeln?
Assoziationsregeln untersuchen Korrelationen zwischen verschiedenen Transaktionen und versuchen, Regeln abzuleiten, die aufzeigen, welche Items oft zusammen auftreten.
Was sind Transaktionen und Items im Kontext von Assoziationsregeln?
Transaktionen sind Sets von Items, z.B. Produkte, die in einem Einkaufswagen enthalten sind. Items sind die einzelnen Produkte selbst.
Wie wird eine Assoziationsregel dargestellt?
Eine Assoziationsregel wird in der Form {A, B} → {C, D} geschrieben, wobei A und B die Bedingungen sind und C und D die Schlussfolgerungen.
Was sind Güte Maße im Kontext von Assoziationen?
Güte Maße dienen dazu, die Qualität von Assoziationen zu bewerten. Sie helfen dabei, relevante Regeln aus einer großen Menge zu filtern und zu interpretieren.
Was ist der Zweck der Support-Messung?
Die Support-Messung gibt an, wie oft eine bestimmte Regel oder Kombination von Items in den Transaktionen vorkommt. Sie hilft dabei, häufige und seltene Zusammenhänge zu identifizieren.
Warum ist es wichtig, auch seltene Items in Betracht zu ziehen, obwohl sie weniger häufig vorkommen?
Auch seltene Items können interessante Zusammenhänge aufzeigen und sollten daher nicht vernachlässigt werden.
Was ist die Konfidenz in Bezug auf Assoziationsregeln?
Die Konfidenz gibt die bedingte Wahrscheinlichkeit eines Items B, bei gegeben Item A an. Sie stellt die Stärke des Zusammenhangs dar.
Welches Problem kann bei der Interpretation von Regeln auftreten, wenn nur die Konfidenz berücksichtigt wird?
Die Konfidenz berücksichtigt nicht die statistische Korrelation zwischen den Items. Daher können Regeln mit geringer statistischer Korrelation dennoch eine hohe Konfidenz haben.
Welche Arten von Assoziationsregeln gibt es?
Es gibt taxonomische Assoziationsregeln, quantitative Assoziationsregeln, unscharfe Assoziationsregeln und temporale Assoziationsregeln.
Was zeichnet taxonomische Assoziationsregeln aus?
Taxonomische Assoziationsregeln fassen mehrere Items unter einem gemeinsamen Oberbegriff zusammen. Sie dienen der Abstraktion und Reduktion von Regelmengen.
Was sind quantitative Assoziationsregeln?
Bei quantitativen Assoziationsregeln handelt es sich nicht nur um Artikel, sondern auch um numerische Daten wie Jahreszahlen oder Preise, die in Intervalle eingeteilt oder mit Grenzwerten versehen werden.
Was sind unscharfe Assoziationsregeln?
Unscharfe Assoziationsregeln verwenden "Fuzzy Logic" und weisen jeder Regel eine Verlässlichkeitswertung zwischen 0 (völlig unzuverlässig) und 1 (absolut zutreffend) zu.
Was berücksichtigen temporale Assoziationsregeln?
Temporale Assoziationsregeln berücksichtigen zeitliche Abläufe von Transaktionen und können daher auch für Vorhersagen zeitlicher Zusammenhänge genutzt werden.
Was sind Distanz- und Ähnlichkeitsmaße im Data Mining?
Distanz- und Ähnlichkeitsmaße dienen dazu, die Ähnlichkeit zwischen zwei Daten oder Datensätzen zu bestimmen. Sie werden verwendet, um Cluster zu bilden und Muster zu identifizieren.
Was ist die Hamming-Distanz?
Die Hamming-Distanz gibt an, an wie vielen Stellen sich zwei Datensätze unterscheiden, insbesondere bei binären Daten.
Wie wird die Euklidische Distanz in einem multidimensionalen Raum berechnet?
Die Euklidische Distanz betrachtet die Datensätze als Punkte in einem mehrdimensionalen Raum und misst die Abstände zwischen diesen Punkten.
Was ist die Pearson-Distanz?
Die Pearson-Distanz berücksichtigt die Korrelation innerhalb der Daten, indem sie die Standardabweichung mit einbezieht.
Wie unterscheidet sich die Minkowski-Distanz von der Euklidischen Distanz?
Die Minkowski-Distanz ist eine allgemeinere Form der Euklidischen Distanz und kann auch für Potenzen n > 2 angewendet werden, wobei größere Abstände stärker gewichtet werden.
Was ist die Manhattan-Distanz und in welchen Fällen wird sie angewendet?
Die Manhattan-Distanz wird verwendet, wenn diskrete Werte vorliegen und die Abstände nach Planquadraten gemessen werden, z.B. auf einem Spielbrett.
Wann ist die Tschebyscheff-Distanz besonders geeignet?
Die Tschebyscheff-Distanz wird gewählt, wenn nur die maximale Distanz zwischen zwei Datenpunkten relevant ist und nicht die genaue Richtung.
Was sind Gewichtungen im Kontext von Distanzmaßen?
Gewichtungen dienen dazu, die Bedeutung von Attributen in den Distanzmaßen zu beeinflussen und beispielsweise sicherzustellen, dass bestimmte Attribute stärker berücksichtigt werden.
Wie beeinflusst die Wahl des Distanzmaßes die Ergebnisse im Clustering?
Die Wahl des Distanzmaßes kann die Form der Cluster und die Zuordnung von Datenpunkten beeinflussen, da unterschiedliche Distanzmaße unterschiedliche Aspekte der Ähnlichkeit messen.
Warum ist es wichtig, die Skalierung der Attribute zu berücksichtigen, wenn Distanzmaße verwendet werden?
Wenn die Attribute unterschiedliche Skalen haben, können Distanzmaße verzerrt werden. Daher ist es wichtig, die Attribute zu normalisieren oder zu standardisieren, um genaue Ergebnisse im Clustering zu erhalten.
Was ist ein Entscheidungsbaum?
Ein Entscheidungsbaum ist eine hierarchische Struktur, die zur Darstellung von Entscheidungsregeln verwendet wird. Er besteht aus Knoten, die Entscheidungen repräsentieren, und Blättern, die Ergebnisse darstellen.
Was ist der Unterschied zwischen Klassifikations- und Regressionsbäumen?
Klassifikationsbäume werden verwendet, wenn die Zielvariable kategorische Werte annimmt, während Regressionsbäume für kontinuierliche Zielvariablen verwendet werden.
Wie wird der Informationsgewinn bei der Entscheidungsbaum-Erstellung berechnet?
Der Informationsgewinn misst die Reduktion der Entropie oder Gini-Impurität nach der Aufteilung der Daten durch eine bestimmte Entscheidung.
Was ist die Entropie in Bezug auf Entscheidungsbäume?
Die Entropie misst die Unordnung oder Unsicherheit in einem Datensatz. In einem Entscheidungsbaum wird versucht, die Entropie zu minimieren, um eine klare Trennung zwischen den Klassen zu erzielen.
Was ist die Gini-Impurität?
Die Gini-Impurität misst die Wahrscheinlichkeit, dass ein zufällig ausgewählter Datensatz falsch klassifiziert wird, wenn er nach dem Zufallsprinzip einer Klasse zugeordnet wird.
Was ist Overfitting in Bezug auf Entscheidungsbäume?
Overfitting tritt auf, wenn ein Entscheidungsbaum zu stark an die Trainingsdaten angepasst ist und daher schlecht auf neuen Daten generalisiert.
Was sind Pruning-Techniken bei Entscheidungsbäumen?
Pruning-Techniken dienen dazu, übermäßig komplexe Entscheidungsbäume zu vereinfachen und Overfitting zu reduzieren.
Was ist ein künstliches neuronales Netzwerk?
Ein künstliches neuronales Netzwerk ist ein Modell, das von biologischen neuronalen Netzwerken inspiriert ist und zur Lösung komplexer Probleme im maschinellen Lernen eingesetzt wird.
Was sind Neuronen in einem neuronalen Netzwerk?
Neuronen in einem neuronalen Netzwerk sind Recheneinheiten, die Eingaben gewichten, summiert und durch eine Aktivierungsfunktion transformieren, um eine Ausgabe zu erzeugen.
Was ist der Unterschied zwischen einem Feedforward- und einem rekurrenten neuronalen Netzwerk?
Ein Feedforward-Netzwerk leitet die Daten nur in eine Richtung, während ein rekurrentes Netzwerk Rückkopplungsschleifen hat und somit Informationen speichern kann.
Was ist ein Verlustfunktion in einem neuronalen Netzwerk?
Eine Verlustfunktion misst die Abweichung zwischen den tatsächlichen Ausgaben des Netzwerks und den erwarteten Ausgaben während des Trainings.
Was ist Backpropagation im Kontext von neuronalen Netzwerken?
Backpropagation ist ein Optimierungsalgorithmus, der zur Anpassung der Gewichtungen in einem neuronalen Netzwerk verwendet wird, um den Verlust zu minimieren.
Was ist der grundlegende Unterschied zwischen einem Klassifikationsalgorithmus und einem neuronalen Netz?
Ein Klassifikationsalgorithmus wird programmiert, während ein neuronales Netz trainiert wird.
Was geschieht während der Trainingsphase eines neuronalen Netzes?
In der Trainingsphase werden Datensätze angelegt, die als Vektoren dienen.
Welche Funktion erfüllt der Speichervektor (Array) in einem neuronalen Netz?
Der Speichervektor bildet die Inputschicht des Netzes.
Was zeigt die Output-Schicht in einem neuronalen Netz?
Die Output-Schicht zeigt die Reaktion des Netzes auf den Inputvektor.
Muss die Output-Schicht die gleiche Dimension haben wie der Inputvektor?
Nein, die Output-Schicht muss nicht die gleiche Dimension haben wie der Inputvektor.
Was ist eine Aktivierungsfunktion in einem neuronalen Netz?
Eine Aktivierungsfunktion ist eine mathematische Funktion, die die Erregung eines Neurons bestimmt.
Wie kann die Schwellfunktion einer Aktivierungsfunktion realisiert sein?
Die Schwellfunktion kann entweder binär oder reellwertig ausgeführt sein.
Warum bieten sich Funktionen mit einem sigmoiden Verlauf als Aktivierungsfunktion an?
Funktionen mit einem sigmoiden Verlauf bieten einen weichen Übergang des Schwellwerts und ermöglichen so eine feinere Unterscheidung.
Was sind Gewichte in einem neuronalen Netz?
Gewichte sind Parameter, die jedem Datum in der Aktivierungsfunktion zugeordnet sind und beeinflussen, wie stark es weitergeleitet wird.
Wozu können Biases in einem neuronalen Netz verwendet werden?
Biases können verwendet werden, um beispielsweise die Multiplikation mit 0 zu verhindern und den Lernprozess nicht zu stören.
Was ist die Erregung in einem neuronalen Netz?
Die Erregung ist das Ergebnis der mehrstufigen Berechnung in einem neuronalen Netz.
Wie wird der globale Lernprozess eines neuronalen Netzes beschrieben?
Der globale Lernprozess beinhaltet die Justierung der Gewichtungen und Schwellwerte an allen Aktivierungsfunktionen aller Neuronen.
Welche Schritte umfasst der Aufbau des Lernprozesses?
Der Aufbau des Lernprozesses beinhaltet die Initialisierung der Gewichte, Forwardpropagation, Berechnung der Fehlerfunktionen, Backpropagation und die Korrektur der Neuronenparameter.
Wann kann das Training eines neuronalen Netzes beendet werden?
Das Training kann beendet werden, wenn die Abweichungen von den erwarteten Ergebnissen hinreichend gering bleiben.
Was bedeutet es, wenn ein Netz konvergiert?
Wenn ein Netz konvergiert, bedeutet dies, dass es einen Zustand erreicht hat, der sich nicht mehr verändert.
Warum ist die Wahl der Anzahl der Layer in einem neuronalen Netz wichtig?
Die Anzahl der Layer beeinflusst die Genauigkeit und das Verhalten des Netzes. Es kann zwischen schlanken Netzwerken (max. 3 Schichten) und tiefen Netzen (Deep Neural Networks) gewählt werden.
Was sind einige Trainingsmethoden für neuronale Netze?
Zu den Trainingsmethoden gehören überwachtes Lernen, bei dem die Gewichte manuell angepasst werden, und unüberwachtes Lernen, bei dem die Parameter automatisch korrigiert werden.
Welche Rolle spielen Initialwerte in einem neuronalen Netz?
Initialwerte sind Ausgangswerte für die Gewichte und beeinflussen den Lernprozess. Sie können zufällig gewählt oder mit speziellen Methoden wie Xavier- oder He-Initialization gesetzt werden.
Was ist eine Fehlerfunktion und wozu dient sie?
Eine Fehlerfunktion vergleicht den erwarteten Ausgang mit dem generierten Ausgang und dient dazu, den Fehler zu quantifizieren.
Wie wird die Häufigkeit der Backpropagation-Korrekturphasen im Verhältnis zu den Trainingsdaten bezeichnet?
Die Häufigkeit der Backpropagation-Korrekturphasen im Verhältnis zu den Trainingsdaten wird als Epochenzahl bezeichnet.
Zuletzt geändertvor einem Jahr