3.1 Vorüberlegungen: Datenaufbereitung / Codierung
= Auswertung z.B. mit Excel oder Kalkulationsprogramm
—> Statistikprogramme für aufwendige Berechnungen
—> SPSS, Alternative SAS
Kriterien bei Auswahl Statistik Analysesystem:
—> Umfang, Komplexität der Statistik, Methodenspektrum
—> Datenmengen und Datenverwaltung
—> Abhängigkeiten innerhalb der Daten
—> Ergebnisdarstellung
—> vorhandene bzw. erhältliche Programmmodule
Codierung
erste Maßnahme = Codierung der Fragebögen (Antworten der Fragebögen EDV gerecht aufbereitet)
—> Daten strukturiert, ohne Aufwand und gleichzeitig eingeben möglich
Codierung (Regeln)
—> Vollständigkeit (alle Antworten erfasst)
—> Eindeutigkeit (eindeutige Zuordnung Merkmalsausprägung)
—> Ausschließlichkeit (Ausnahme Mehrfachauswahl, sonst nur Ausprägung in eine Kategorie)
Code Plan erstellen
—> jeder Frage jeder Merkmalsausprägung positive ganze Zahl zugeordnet (Quantifizierung)
—> bei Eingabe der Daten in Auswertungsprogramm statt Text, Zahl
—> numerische Zahlencodes als Variable und dazugehörenden verbalen Merkmalsausprägungen als Wertelabel/ -etiketten bezeichnet
Wertelabels
dienen dazu bei Ausgabe Ergebnisse numerische Codes in Ursprungsform zurückzuwandeln
—> Codierung geschlossene Fragen = unkompliziert
—> offene Fragen = schwierig, wiederholte Aussagen = gleiche Code-Nummer
nach Codierung
nach Codierung Daten in Statistikprogramm eingegeben
—> Variable = spaltenweise, Untersuchungsobjekte = zeilenweise
3.2 Deskriptive Statistik
Aufgabe Datenanalyse = Daten ordnen, prüfen, analysieren, verdichten, be Entscheidungsfindung unterstützen
Eindimensionale Häufigkeitsverteilungen
bei n Elementen einer Stichprobe erfassten Merkmalsausprägungen a(i) ergeben ungeordnete Beobachtungsreihe (Urliste)
—> durch Auswählen eines Wertes x(i) + Zuordnung Häufigkeiten = absolute Häufigkeiten h(a)
—> in Relation zum Stichprobenumfang n gesetzt = ergibt relative Häufigkeit f(a)
Kreisdiagramme
= Verteilung Anteile (z.B. Männer, Frauen)
—> Gefahr Unübersichtlichkeit, nur bei Merkmalen mit relativ wenigen Ausprägungen
Darstellung relative Häufigkeit
Darstellung relative Häufigkeit für alle Skalenniveaus anwendbar
—> hinterfragen, ob Darstellung Sinn macht oder Aussagen verfälscht
—> z.B. 50% durchgefallen = irreführend wenn nur 2 Prüflinge waren
Lageparameter
für Häufigkeitsverteilung zu berechnen
Ziel: Position mehrerer Merkmalswerte durch einzigen Wert zu charakterisieren
arithmetisches Mittel (Mittelwert, Durchschnitt)
Median (Mittelwert bei geordneten Zahlen) —> bei ungerade einfach, bei geraden Anzahl = Durchschnitt beider —> wird nicht durch einzelne Ausreißer beeinflusst
Modus (Wert der am häufigsten vorkommt) —> auch Modalwert
Streuungsparameter
= wie dicht Werte einer Beobachtungsreihe um Mittelwert schwanken
Varianz (mittlere/ durchschnittliche quadratische Abweichung)
—> lässt sich aus absoluten Häufigkeiten berechnen
Standardabweichung
—> Quadratwurzel aus mittlerer quadratischen Abweichung
—> Streuung
—> Fehler Intervalle um arithmetisches Mittel lassen sich kennzeichnen
Bivariate Häufigkeitsverteilungen
= mehrere Variablen (hier 2) gleichzeitig (simultan in Untersuchung) einbeziehen
—> Beziehungen nach Art und Umfang analysieren
Kreuztabellierung
einfachste Verfahren
alle Kombination zwei oder mehr Variablen in Matrix dargestellt (Kreuztabelle)
Häufigkeit mit der jede Kombi auftritt im Anschluss in Matrix eingetragen
Vorteil: kein bestimmtes Skalenniveau vorausgesetzt
einfache Korrelationsanalyse
wichtige Methode zur quantitativen Bestimmung linearer Zsm.hänge zwischen zwei metrischen Variablen
bei Kreuztabellen = nur geprüft ob Zusammenhang besteht, nicht wie stark
wie ausdrücken?
Korrelation durch Bravais-Pearsonschen Korrelationskoeffizienten r ausdrücken
—> für Berechnung Tabelle nötig
—> kann Werte zwischen -1 und +1 annehmen
—> durch absolute Größe des Wertes wird Stärke
—> durch Vorzeichen Richtung Zusammenhang (positiv/ negativ)
Extremwerte
Extremwerte Korrelationskoeffizienten
—> r = -1 = vollständiger, negativer Zusammenhang (je größer x, desto kleiner y)
—> r = 0 = kein linearer Zusammenhang zwischen Variablen (unabhängig)
—> r = +1 = vollständiger, positiver Zusammenhang (je größer x, desto größer y)
einfache Regressionsanalyse
= prüft einseitige Beziehung zwischen abhängiger und unabhängiger Variablen
keine Ursache-Wirkungs-Beziehungen aufdecken
Gerade in Form von y = a + bx
—> a = y-Wert für x=0, b = Steigung der Geraden
Multivariate Analyseverfahren: Übersicht
Regressionsanalyse
Prüfung Abhängigkeit abhängigen Variablen von mehreren unabhängigen Variable
Alle Variablen metrisch skaliert
z.B. Investitionsvolumen Bauindustrie Einfluss auf Stahlnachfrage?
Varianzanalyse
Wie bei Regressionsanalyse, reicht für unabhängige Variable nominales Skalenniveau
z.B. Art der Verpackung Einfluss auf Höhe der Absatzmenge?
Diskriminanzanalyse
Wie bei Regressionsanalyse, reicht für die abhängige Variable nominales Skalenniveau aus
z.B. Kreditkunden anhand der Merkmale Einkommen, Schulbildung, Alter etc. als kreditwürdig einstufen?
Faktorenanalyse
Datenverdichtung, Rückführung mehrerer Variablen auf wenige Faktoren
z.B. Lässt sich die Vielzahl der Eigenschaften, die Käufer von Automobilen als wichtig empfinden, auf wenige komplexe Faktoren reduzieren?
Clusteranalyse
Gesamtheit Objekte (z.B. Personen) entsprechend Merkmalsausprägung so in Gruppen (Cluster) aufzuspalten, dass einzelnen Gruppen homogen
Lassen sich Kunden entsprechend ihren Bedürfnissen in Gruppen einteilen?
Multidimensionale Skalierung
Objekte sollen in mehrdimensionalen Raum so positioniert werden, dass Positionen der Objekte und die gegenseitigen räumlichen Entfernungen mit tatsächlichen Entfernungen überein stimmen.
z.B. Inwieweit entspricht eigene Produkt den Idealvorstellungen der Konsumenten?
3.3 Inferenzstatistik: Übersicht
Problemstellung
= Prüf-, induktiv oder schließende Statistik
—> wie von Stichprobe aus Auswahl von Untersuchungseinheiten auf Grundgesamtheit schließen
—> Wie kann man aufgrund der Stichprobenergebenisse auf Grundgesamtheit schließen?
Hypothesen
Hypothesen = Annahmen/ Vermutungen über Realität
vor Untersuchung gebildet und dann mit Stichproben untersucht
Hypothesen - Arten
—> Nullhypothese H0 = Hypothese entspricht nicht unseren Erwartungen (zu falsifizieren)
—> Alternativhypothese H1 = Hypothese entspricht Erwartungen (nicht direkt verifizierbar)
Hypothese kann nur widerlegt, nicht bewiesen werden
Hypothesen - Fehler
Hypothesen mit Wahrscheinlichkeit angenommen
max. Wahrscheinlichkeit für Fehler 1. Art = Signifikanzniveau alpha
—> häufig 1% bzw. 5% (a = 0,01 bzw. a = 0,05)
Hypothesentesten
Formulierung der Nullhypothese H0 und der Alternativhypothese H1
Festlegung des Signifikanzniveaus α
Festlegung einer geeigneten Teststatistik
Bestimmung des sogenannten kritischen Bereichs, der Grundlage für die Ablehnung der Nullhypothese ist
Berechnung des Wertes der Teststatistik aus einer Stichprobe
Entscheidung über die Ablehnung oder die Nicht-Ablehnung der Nullhypothese
Last changed2 years ago