Aussagen von der Stichprobe auf die Grundgesamheit (aus der die Stichprobe gezogen wurde)
Stichprobe -> Grundgesamtheit
Schätzen und Hypothesentest
Gesetze der induktiven Statistik gelten nur, wenn es sich um Zufallsstichproben handelt
Verfahren der induktiven Statistik beruhen auf Wahrscheinlichkeitsrechnung
Aussagen, die am Ende über die Grundgesamtheit getroffen werden können, gelten dabei selbst nur mit einer gewissen Wahrscheinlichkeit
Welches sind die zwei fundamentalen Gesetze, auf denen die Verfahren der induktiven Statistik beruhen (damit ein gültiger Schluss von der Stichprobe auf die Grundgesamtheit ermöglicht wird)?
Das Gesetz der großen Zahlen
Der zentrale Grenzwertsatz
Die relative Häufigkeit eines Zufallsereignisses nähert sich immer weiter der theoretischen Wahrscheinlichkeit für dieses Ereignis an, je öfter das Experiment durchgeführt wird.
Je größer eine Stichprobe ist, desto näher liegt wahrscheinlich die relative Häufigkeit einer Ausprägung in der Stichprobe an der relativen Häufigkeit in der Grundgesamtheit.
-> relative Häufigkeiten wie Wahrscheinlichkeiten -> Summe aller relativen Häufigkeiten einer Verteilung = 1
Gesetz findet in vielen Bereichen der induktiven Statistik Gültigkeit -> oftmals spielt es eine Rolle, ob die Stichprobe “ausreichend groß” ist
-> Gültigkeit von Schlüssen
-> die Größe von Standardfehlern
-> Angemessenheit bestimmter Tests
-> Breite von Konfidenzintervallen
Devise:
Je größer, desto besser.
Bitte nennen Sie mehrere statistische Verfahren, für die diese Regel gilt. Welche statistischen Größen werden durch die Größe der Stichproben beeinflusst?
Gesetz der großen Zahlen
-> Power
-> Standardabweichung
-> Standardfehler
-> Konfidenzintervall
Eine theoretische Verteilung ist die Verteilung einer sogenannten Zufallsvariablen (die einen bestimmten Wert annehmen kann, aber nicht muss). Sie beruht auf einer mathematischen Funktion, die angibt, mit welcher Wahrscheinlichkeit welche Werte auftreten.
wichtigste theoretische Verteilung ist Normalverteilung(Glockenkurve)
in theoretischen Verteilungen und Grundgesamtheiten gilt:
arithmetischer Mittelwert = Erwartungswert (Mü)
Standardabweichung = Sigma
Die Normalverteilung ist achsensymmetrisch.
Gipfel = Mü =Erwartungswert
2 Wendepunkte Mü - Sigma; Mü + Sigma
Zwischen den Wendepunkten liegen gut 2/3 (68%) der Fläche zwischen x Achse und Kurve.
Die Fläche zwischen x-Achse und Kurve zwischen zwei beliebigen Stellen auf der x Achse entspricht der Wahrscheinlichkeit, dass die Zufallsvariable in einen Wert in diesem Abschnitt annimmt.
Zwischen den Stellen Mü - 2x Sigma und Mü+2x Sigma (exakt: jeweils 1,96 ) liegen gut 95 % der Fläche zwischen x Achse und Kurve.
Die Wendepunkte befinden sich genau eine Standardabweichung (= 1 σ) vom Erwartungswert entfernt. Zwischen den beiden Wendepunkten sowie Kurve und x-Achse liegen 68 % der Gesamtfläche unterhalb der Kurve.
Das heißt, dass eine normalverteilte Zufallsvariable mit einer Wahrscheinlichkeit von 0,68 einen Wert zwischen den beiden Wendepunkten annimmt.
-> Normalverteilung beruht auf dem Gesetz des zentralen Grenzwertsatzes
-> wenn aus einer GG immer wieder Stichproben gezogen werden, werden die Mittelwerte der Stichproben (Stichprobenmittelwerte) in einem Histogramm dargestellt, sich einer Normalverteilung annähern -> Stichprobenmittelwerteverteilung
-> Normalverteilung -> Fläche x-Achse-Kurve -> Wahrscheinlichkeit dass Wert in diesem Bereich angenommen wird
-> SPMWV annähernd normalverteilt -> also nah um den wahren Wert Mü verteilt
-> Normalverteilung der Stichprobe ist Voraussetzung für t-Tests damit durchgeführt werden können
-> beruht auf dem zentralen Grenzwertsatz -> eines der Gesetze der induktiven Statistik
-> Verteilung der Mittelwerte der Stichproben -> annähernd normalverteilt (Glockenkurve)
-> Mü der SPMWV = Mü der GG-> Stichprobenmittelwerte um den wahren Mittelwert Mü der GG normal verteilt
-> Standardabweichung der SPMWV -> “Standardfehler des Mittelwertes” = Sigma x-quer
macht den Schluss von der Stichprobe auf die GG möglich -> abhängig von der Varianz in der GG und dem Umfang der Stichprobe -> bezieht beide aufeinander
-> allerdings ist Standardfehler nicht bekannt, weil die Varianz der GG ja nicht bekannt
-> wird deswegen geschätzt, mit der Standardabweichung der Stichprobe s
-> das Dach steht für geschätzt
-> Interesse an Verteilung eines metrischen Merkmals in einer Gurndgesamtheit
-> Zufallssstichprobe mit n Fällen -> n > 30 damit zentraler Grenzwertsatz genutzt werden kann
-> Stichprobe: arithmetisches Mittel x-quer und die Standardabweichung s ermitteln
-> Schätzung des Standardfehlers mithilfe von n und s
-> Schlüsse auf die GG
-> Verfahren der induktiven Statistik
-> herauszufinden, wo ein unbekannter Parameter der GG liegt
-> als Schätzer werden Statistiken der Stichprobe verwendet
-> einfachste Schätzung: Stichprobenstatistik genauso groß wie der unbekannte Parameter
-> Punktschätzungen für den Mittelwert: Mü = x-quer -> Mittelwert μ liegt genau an der Stelle x-quer.
-> Problem: liegen immer daneben
-> deswegen wird zusätzlich ein Intervall geschätzt, in dem der unbekannte Mittelwert der GG mit einer von uns vorgegebenen Wahrscheinlichkeit tatsächlich liegen soll -> Intervallschätzung
-> geschätzten Intervalle, in dem der unbekannte Mittelwert der GG liegt
-> liegt symmetrisch um den Stichprobenmittelwert x-quer
-> Breite abhängig von Standardfehler
-> t-Werte hängen ab von der Wahrscheinlichkeit, mit der der Mittelwert mü tatsächlich in dem CI liegen soll -> diese Wahrscheinlichkeit wird von uns festgelegt -> üblich sind 95% oder 99%
-> P = 95% t = 1,96
-> P = 99% t = 2,58
-> t-Werte früher aus Tabellen abgelesen, heute Computer
-> mit Faustformel annäherungsweise berechnen
Mit einer Wahrscheinlichkeit von 95%/99% liegt der unbekannte Mittelwert der Grundgesamtheit zwischen der oberen und unteren Grenze des Konfidenzintervalles.
-> je kleiner CI, desto präziser ist die Schätzung
-> wenn Vertrauenwahrscheinlichkeit vorgegeben, dann nur eine Möglichkeit CI zu verkleinern -> vergrößern der Stichprobe
dieser Zusammenhang: Gesetz der großen Zahlen
Welche Aussagen im Zusammenhang mit Konfidenzintervallen sind WAHR?
-> beruhen auf zwei Gesetzen -> zentraler Grenzwertsatz und Geset6z der großen Zahlen
-> beide Verfahren der induktiven Statistik
-> Standardfehler taucht in beiden Verfahren auf (CI und t-Test)
-> beide Verfahren von der Stichprobengröße beeinflusst (CI-Breite und t-Test wenn n>30)
-> beide Verfahren beziehen sich auf Grundgesamtheit (Schätzen, wo unbekannter Parameter in GG und Testen, ob H1 oder H0 über GG angenommen werden darf)
-> beide Versuch zu ergründen, ob die Unterschiede/Zusammenhänge der Stichproben einen Rückschluss auf die Grundgesamtheit zulassen
Auswirkungen auf:
Angemessenheit Tests -> t-Tests -> wenn n > 30
Gültigkeit Schlüsse
Breite Konfidenzintervall -> Schätzen
Größe Standardfehlers -> Tests
-> Überprüfen von Hypothesen/Annahmen über die Grundgesamtheit
-> ob H1 angenommen werden darf oder nicht, systematische Überprüfung
-> geht um Fehler und Kontrolle
Alternativhypothese - H1 -> Zusammenhang/Unterschied etc.
Nullhypothese - H0 -> kein Zusammenhang/Unterschied
Unterschiedshypothesen
Zusammenhangshypothesen
ungerichtet -> keine Richtung vorgegeben -> zweiseitiger Test
gerichtet -> (vermutete) Richtung angegeben -> einseitiger Test
Bei einseitigen Tests führen die Testergebnisse häufig zu einer Annahme von H1 -> Verdacht, dass einseitig nur vorgenommen wurde, um H1 zu bestätigen -> mit zweiseitigen Tests wirkt man dem entgegen
2 Arten von Fehler:
alpha-Fehler -> Fehler 1. Art -> H1 wird aufgrund der Testergebnisse angenommen, aber H0 trifft zu
beta-Fehler -> Fehler 2. Art -> H1 wird verworfen, aufgrund der testergebnisse, aber trifft eigentlich zu
Fehler können nicht vollständig vermieden werden
-> Festlegung eines Signifikanzniveau α
entweder 5% oder 1% -> Konventionen
-> Prüfung der Tests, ob α überschritten oder unterschritten
-> α unterschritten -> H1 darf angenommen werden
-> α überschritten -> H1 verwerfen; H0
-> α unterschritten, dann ist das Testergebnis signifikant
Überlegung dahinter ist, dass wenn H0 die Verhältnisse in der GG korrekt beschreiben würde, dann würde eine Stichprobe wie sie uns vorliegt unwahrscheinlich sein, da die Verteilung der Merkmale nur mit einer Wahrscheinlichkeit < 5% auftaucht -> da aber nun diese Stichprobe uns vorliegt, somit also real ist, gehen wir nun umgekehrt davon aus, dass es unwahrscheinlich ist das die Verteilung wie sie H0 beschreibt, auf die GG zutreffen könnte -> nehmen also H1 für die GG als zutreffend an
-> neben der Ermittlung, ob α über-/unterschritten wird, bekommen wir mithilfe der Computer einen weiteren Wert -> p
-> p-Wert liefert die Signifikanz, mit der die Annahme von H1 verbunden ist
p < 0,05 signifikant
p < 0,01 hochsignifikant
p < 0,001 höchstsignifikant
-> viele Tests, die zur Überprüfung von Hypothesen eingesetzt werden können
-> Standardtests, die sehr verbreitet und die eine Prüfung grundlegender Hypothesen ermöglicht -> Familie der t-Tests
t-Test für eine Stichprobe
-> nur durchgeführt, wenn Stichprobe > 30
H0: Der Mittelwert der Grundgesamtheit, aus der die Stichprobe stammt, beträgt mü0. (Anders formuliert: mü1 unterscheidet sich nicht von mü0.)
H1: Der Mittelwert der Grundgesamtheit, aus der die Stichprobe stammt, beträgt nicht mü0. Oder: Mü1 und Mü2 unterscheiden sich.
Berechnung:
-> Quotient aus Differenz (Stichprobenmittelwert x-quer - Testwert mü0) und dem Standardfehler folgt einer t-Verteilung
p < α -> H1 t > 2 ist p < 0,05
p > α ->H0 t > 2,5 ist p < 0,01
-> wenn metrisches Merkmal, arithmetisches Mittel und n > 30
-> Standardfehler der Differenz der Stichprobenmittelwerte -> Streuung die sich normal verteilen würde, wenn immer wieder zwei neue Stichproben gezogen und deren Mittelwerte berechnet und diese Differenz dann in Koordiantensystem -> annähernd normalverteilt
-> aus diesen drei Größen -> t-verteilte Prüfgröße ermitteln
-> wird per Computer gerechnet
-> nur angwendet wenn die Varianz in den GG gleich
-> dafür F-Test (Levene-Test) -> signifikant, dann ungleiche Varianzen
-> Modifikation durch den Welch-Test -> t-Test für ungleich Varianzen
-> nur bei nicht-signifikanten F-Test t-Test
H0: Mittelwerte in den GG sind gleich
H1: Mittelwerte in den GG sind nicht gleich
-> Testdurchführung:
Berurteilung der Differenz der Stichprobenmittelwerte.
-> Voraussetzung:
Das Merkmal ist in den Grundgesamtheiten normal verteilt oder n1, n2> 30. Wenn die Varianzen in der Grundgesamtheit ungleich sind, muss eine Modifikation, der Welch-Test, durchgeführt werden.
Levene-Test nicht signifikant -> Standardfehler der Mittelwertdifferenz berechnen
Levene-Test signifikant -> Formeln anwenden, um beim Welch-Test das t zu ermitteln.
-> Testergebnis:
Wenn p < α, gilt das Ergebnis als signifikant und H1wird angenommen. Wenn p > α, wird H0beibehalten.
-> Fälle der beiden Stichproben jeweils paarweise miteinander verbunden
-> auch von gepaarten/verbundenen Stichproben -> Synonyme
a) sachliche Relationen
b) gematchte Stichproben
c) wiederholte Messungen an denselben Fällen
H1: Die Mittelwerte der beiden Merkmale unterscheiden sich in der Grundgesamtheit.
H0: Die Mittelwerte der beiden Merkmale unterscheiden sich nicht in der Grundgesamtheit. (Die Mittelwerte der beiden Messungen des Merkmals …)
Testdurchführung:
Vergleich des Mittelwertes der Differenz der Werte in der Stichprobe mit 0.
Voraussetzung:
Die Merkmale sind in der Grundgesamtheit normal verteilt oder n1= n2> 30.
Testergebnis:
Wenn p< αwird H1angenommen, bei p> αwird H0beibehalten
-> für jedes Werte-Paar die Differenz der Messwerte gebildet
-> für diese Differenz wird der Mittelwert berechnet und der Standardfehler geschätzt
-> Test basiert auf der folgenden t-verteilten Prüfgröße:
n > 30
Normalverteilung des Merkmals in der Grundgesamtheit
zweite Stichprobe oder Testwert
gleiche Varianzen in den GG -> Levene-Test
metrisches Merkmal
Begründen Sie bitte, weshalb gerade in epidemiologischen Studien neben den typischen einschlägigen Assoziationsmaßen häufig t-Tests durchgeführt werden (können). Welche Eigenschaft von t-Tests ist dafür ausschlaggebend (oder umgekehrt, welcher typische Aufbau vieler epidemiologischer Studien)?
-> n oftmals größer als 30 angelegt
-> häufig metrische Merkmale untersucht
-> Hypothesentests sind Tiel der induktiven Statistik -> Verfahren nur angewandt wenn Zufallsstichprobe -> Studien oft Zufallsstichproben
-> Hypothesen geprüft -> Bestandteil von Forschung
Wahrscheinlichkeit des α-Fehler klein, wird ein Signifikanzniveau α festgelegt -> wenn errechnetes p kleiner als Signifikanzniveua α, dann darf H1 angenommen werden
-> wird H1 abgelehnt, besteht Gefahr eines β-Fehlers; bei diesem hilft p nicht weiter
-> Vorgabe gegen den β-Fehler bereits zu Beginn der Studie, indem ein β festgelegt wird -> meist 20%
-> oft aber nicht über β gesprochen, sondern über Power -> komplementär zu β -> Gegenwahrscheinlichkeit
-> Power = 80% oder 0,80
-> unter Bedingung H1 trifft zu -> Power ist die Wahrscheinlichkeit, einen Unterschied in den Stichproben zu finden, wenn einer existiert -> Wahrscheinlichkeit für einen signifikanten Test
-> ist wie α eine bedingte Wahrscheinlichkeit
-> relevante Größe eines Zusammenhangs/Unterschieds der nicht übersehen werden soll -> nicht formal mathematisch festgelegt; sachliche Relevanz
Berechnung nach Cohen:
-> mathematischer Zusammenhang von festgelegte Signifikanzniveau α, festgelegtes β bzw. die Power, Umfang der Stichprobe n, Effektgröße und Standardabweichung s der Stichprobe
-> auf alles keinen Einfluss, bis auf die Stichprobe n -> je größer n, desto höher ist die Power -> Gesetz der großen Zahlen
-> n = Formel in der festgelegtes α, Power, Effektgröße und Standardabweichung s -> ist in der GG ein Unterschied von mindestens der angenommenen Effektgröße, wird mit einer Wahrscheinlichkeit von Größe der Power der Test ein p < α liefern -> also signifikant
-> diese Formel n so nicht in Büchern zu finden, daher „Sample Size and Power Calculators“ im Internet
--> Power ist komplementär zu ß -> Komplementärwahrscheinlichkeit 8ß%
-> ß bzw. Power vorab bestimmt, um Versuch ß-Fehler zu vermeiden
-> Power ist die Wahrscheinlichkeit, mit der ein Unterschied gefunden wird, wenn einer existiert -> unter Bedingung das H1 zutrifft
-> mathematischer Zusammenhang zwischen Power, Effekt, Signifikanz, Standardabweichung und Stichprobengröße
-> aus der Power, der Signifikanznivau α und der Effektgröße wird Stichrobengröße n gebildet
parametrisch = Daten sind normalverteilt
nichtparametrisch = Daten sind nicht normalverteilt
-> wenn Stichprobe n < 30
-> Skalenniveau nicht metrisch
-> wahre Verteilung der Zufallsvariablen nicht bekannt
-> Test auf zentrale Tendenzen für zwei unabhängige Stichproben
H1: Die beiden Stichproben entstammen zwei Grundgesamtheiten mit unterschiedlichen zentralen Tendenzen.
H0: Die beiden Stichproben entstammen aus derselben Grundgesamtheit bzw. aus zwei Grundgesamtheiten mit derselben zentralen Tendenz.
Vergleich der Teilrangsummen mit den erwarteten Teilrangsummen
Verteilung ist: unbekannt; ordinal (nicht-metrisch) oder nicht normalverteilt (metrisch)
Voraussetzungen für t-Test sind nicht erfüllt
Wenn p< α wird H1 angenommen, bei p> α wird H0 beibehalten
-> Tet auf zentrale Tendenzen für abhängige Stichproben
H1: Die beiden Stichproben entstammen zwei Grundgesamtheitenmit unterschiedlicher zentraler Tendenz.
H0: Die beiden Stichproben entstammen zwei Grundgesamtheitenmit derselben zentralen Tendenz.
Vergleich der Rangplätze der positiven und negativen Messwertdifferenzen.
Verteilung ordinal oder metrisch (idealerweise); Voraussetzungen für t-Test nicht erfüllt
Wenn p< α wird H1 angenommen, bei p> α wird H0 beibehalten.
da bei ordinalskalierten Testvariable keine Differenz gebildet werden kann -> lediglich die Veränderung des Ranges berücksichtigt -> Vorzeichentest wird durchgeführt
-> Test auf zentrale Tendenzen für zwei abhängige Stichproben
Vergleich der Rangplätze der positiven und negativen Rang-/Wertdifferenzen
Verteilung ordinal oder metrisch -> ideal ordinal, weil Größe der Differenzen nicht interessiert; Voraussetungen für t-Test nicht erfüllt
-> exakter Wert p nur geliefert, wenn SPSS drum gebeten; größere Stichproben nähert sich Test-verteilung asymptotisch einer Standard-Normalverteilung an -> daher asymptotische Signifikanz p
-> Test auf Normalverteilung
H1: Die Grundgesamtheit, aus der die Stichprobe entnommen ist, ist nicht normalverteilt.
H0: Die Stichprobe stammt aus einer normalverteilten Grundgesamtheit.
Vergleich der kummulierten Häufigkeiten klassifizierten Daten mit den erwarteten kummulierten Häufigkeiten.
Merkmal ist stetig metrisch
Irrtrumswahrscheinlichkeit bei Annahme H1 beträgt p.
—> Stichproben n < 50 -> Shapiro-Wilk-Test Prüfung auf Normalverteilung
Kolgomoroff-Smirnoff-Test -> Vergleich der kummulierten Häufigkeiten klassifizierter Daten mit den erwarteten Häufigkeiten
Shapiro-Wilk-Test
-> wenn signifikant p < 0,05 dann keine Normalverteilung
-> wenn nicht signifikant p > 0,05 dann Normalverteilung
-> Alternative: Q-Q Diagramme
-> werden bei SPSS bei der explorativen Datenanalyse neben den Tests erstellt -> dienen der optischen Beurteilung der Verteilungsannahme
-> vergleichen die aufgrund des Ranges eines Wertes in der Stichprobe erwarteten Werte mit den beobachteten
zwei Darstellungsformen:
Q-Q-Diagramm -> erwartete Werte der Standard-Normalverteilung mit den beobachteten gegenübergestellt -> für Normalverteilung spricht, wenn Werte nahe an/ auf der Diagonalen liegen
trendbereinigtes Q-Q-Diagramm -> standardisierten Abweichungen der beobachteten von den erwarteten Werten in Abhängigkeit von den beobachteten dargestellt -> für Normalverteilung spricht, wenn Werte nahe an/ auf der x-Achse
-> Testgröße auf Grundlage Kreuztabellen -> Hypothesenprüfung über die Verteilung des interessierenden Merkmals in der Grund-gesamtheit erlaubt
-> Summe der quadrierten standartisierten Residuen (= Reste -> Differenzen zwischen den beobachteten und erwarteten Anzahlen aus Kreuztabellen/Vierfeldertafel)
-> Summe folgt einer theoretischen Verteilung -> χ2 -Verteilung
-> je größer χ2, dest größer ist der statistische Unterschied zwischen den Verteilungen in den beiden Stichproben.
-> Wert jeder natürlichen Zahl annehmen
-> werden bei Kreuztabellen berechnet, indem man Anzahl der Zeilen minus 1) mit (Anzahl der Spalten minus 1) multipliziert -> (Z-1) x (S-1)
-> theoretische Verteilung mit n Freiheitsgraden, stellt die Summe n quadrierter standardnormalverteilter Zufallsvariablen dar
-> Vierfelder Freiheitsgrad = 1
-> wichtigste Perzentile der χ2-Verteilung mit 1 Freiheitsgrad lautet:
χ2=3,84 für p=0,05.
-> Test auf Unterschiede zwischen zwei (oder mehreren) Gruppen hinsichtlich eines nichtmetrischen Merkmals
H1: Die relativen Häufigkeiten der Ausprägungen des Merkmals unterscheiden sich in den Grundgesamtheiten.
H0: Die relativen Häufigkeiten der Ausprägungen des Merkmals unterscheiden sich in den Grundgesamtheiten nicht.
Vergleich der beobachteten Häufigkeiten mit den aufgrund der Randsummen erwarteten Häufigkeiten.
Der Chi-Quadrat-Test darf durchgeführt werden, wenn nicht mehr als 20% der Zellen eine erwartete Häufigkeit < 5 aufweisen.
Wenn p < α wird H1, bei p > α wird H0 angenommen.
-> signifikantes Ergebnis des Chi-Quadrat-Testes bedarf der genaueren Interpretation, da es noch nicht aussagt, wo genau in den Grundgesamtheiten Unterschiede angenommen werden dürfen -> zulässig, die „korrigierten standardisierten Residuen“ anzeigen zu lassen -> Zellen, in denen diese einen Betrag >=2 aufweisen, weichen die beobachteten Häufigkeiten in den Stichproben von den erwarteten so stark ab, dass wir davon ausgehen dürfen, dass dies auch in den Grundgesamtheiten der Fall ist.
für größere Kreuztabellen um für mehr als zwei Gruppen Vergleiche auch für mehr als zwei Ausprägungen durchzuführen
n < 30 Fisher-Test
30 < n < 80 Yates-Korrektur
-> aus einer Vierfeldertafel kann das relative Risiko zweier Gruppen hinsichtlich einer Erkrankung (oder anderen Ereignissen) schätzen
-> RR ist keine Wahrscheinlichkeit, sondern Verhältnis zweier Wahrscheinlichkeiten
-> in Fall-Kontroll-Studien kann kein RR berechnet werden
-> Assoziationsmaß -> Zusammenhang zwischen zwei Alternativmerkmalen
-> Odds Ratio ist ein Vergleich der Chancen, beruhend dabei auf Fälle und Kontrollen hinsichtlich (früherer) Exposition
OR > 1: Vorhandensein von Merkmal A erhöht die Wahrscheinlichkeit des Vorhandenseins von Merkmal B -> wenn anteilmäßig mehr Fälle als Kontrollen exponiert
OR < 1: Vorhandensein von Merkmal A senkt die Wahrscheinlichkeit des Vorhandenseins von Merkmal B
OR = 1: Vorhandensein von Merkmal A beeinflusst die Wahrscheinlichkeit des Vorhandenseins von Merkmal B nicht -> falls kein Zusammenhang zwischen Erkrankung und Exposition besteht
-> OR kann in allen Studientypen geschätzt werden
-> OR - Formel als Näherung an RR bei kleinen Prävalenzen
-> in Kohortenstudien ist OR immer etwas weiter weg von der 1 als RR
-> wenn die Kontrollen einer Fall-Kontroll-Studie aus der Population stammen, aus der auch die Erkrankten kommen, stellt das Odds Ratio der Fall-Kontroll-Studie sogar eine erwartungstreue Schätzung des Risk Ratios dieser Population dar -> OR als Annäherung für das RR
-> Zweimalige Untersuchung eines dichotomen Merkmals (= Test auf Übereinstimmung zweier verbundener Stichproben)
-> Zellen der Kreuztabelle b und c enthalten die “Wechsler” -> nur die Änderungen von ihnen werden in dem Test betrachtet
Prüfgröße ist χ2-verteilt mit Freiheitsgrad=1
-> Zweimalige Beurteilung eines dichotomen Merkmals (=Test auf Übereinstimmung zweier verbundener Stichproben)
-> Kreuztabelle -> Zellen a und d enthalten die Übereinstimmungen
-> Auf der χ2-Verteilung beruht die Berechnung mehrerer sogenannter Kontingenzmaße, die den Zusammenhang zwischen zwei nominalskalierten Variablen beschreiben.
-> er einfachste Koeffizient ist Phi Φ
-> nur für die Vierfeldertafel definiert
-> kann Werte zwischen 0 und 1 annehmen -> da nominalskaliert, negative Werte wie positive Werte zu betrachten
-> für größere Kreuztabellen
-> V ist eine Verallgemeinerung von Φ
k = kleinere Anzahl der Reihen und Spalten
-> bei zwei metrischen Merkmalen kann man nicht nur die Varianz des jeweiligen Merkmals berechnen, sondern auch die Varianz beider Merkmale
Kontingenzkoeffizient = Stärke des Zusammenhangs
Korrelationskoeffizient = Richtung des Zusammenhangs
-> wenn man die Kovarianz durch die beiden Standardabweichungen der beiden Variablen dividiert erhält man eine demnsionslose Zahl zwischen -1 und +1 -> metrische Korrelationskoeffizient r -> für r ist ein Signifikanztest möglich
-> r ist eng mit Normalverteilung verknüpft
-> Korrelationskoeffizient nach Bravais-Pearson (Produkt-Moment-Korrelation)
-> die r sind nicht normalverteilt
-> r wird in den Grundgesamtheiten als ρ bezeichnet
ρ > 0 rechtssteil (linksschief); ρ < 0 linkssteil (rechtsschief) -> Verteilung der Korrelationskoeffizienten
-> dennoch kann r mit t-verteilten Prüfgröße getetstet werden
-> Transformation des r in ein annähernd normalverteilte Größe z
-> für z kann ein t-Test durchgeführt werden mit einer anschließenden Prüfverteilung
-> Korrelation über die Bildung von Rangplätzen -> daraus Spearmans r -> Spezialfall von r
-> bei ordinalskalierten Variablen
-> auch Spearmans r kann getestet werden -> H0: ρ=0
->
-> seltener genutzt -> vor allem wenn starker Ausreisserdifferzenzen, dann eher geeignet als Spearmans r
-> weiterer Korrelationskoeffizient, basiert auf der Reihenfolge der Ränge
Strukturen-prüfende Verfahren(= konfirmatorische Verfahren) -> Überprüfen von Zusammenhängen zwischen Variablen
unabhängige Variable
abhängige Variable
Methode
metrisch
Regressionsanalyse
nominal
Diskriminanzanalyse (logistische Regression)
Varianzanalyse
Kontingenzanalyse (Logit-Analyse)
Strukturen-entdeckende Verfahren (= explorative Verfahren)-> Entdecken von Zusammenhängen zwischen Variablen und Fällen
-> Clusteranalyse -> Bündelung von Fällen
-> Faktorenanalyse -> Bündelung von Merkmalen
Y: Regressand; abhängige Variable; erklärte Variable; Prognosevariable
X1 (X2usw.): Regressor(en); unabhängige Variable(n; )erklärende Variable(n); Prädiktorvariable(n)
Lineare Regression:
-> wegen dem Exponenten 1 lineare Funktion
Regressionsgleichung = Geraden-Funktion
Symbole:
-> alle Schätzewerte des y-Dach werden immer um einen Wert ei von dem empirischen yi abweichen
-> beste Annäherung an die tatsächlichen Messwerte stellt eine Gerade dar, bei der die ei möglichst klein sind -> ei könnte negativ als auch positiv sein -> daher wird für die Summe eine Quadrierung der Abweichungen gefordert
-> yi streuen um den Mittelwert y-Strich
-> diese Streuung soll erklärt werden durch die Streuung der xi um den Mittelwert x-Strich
-> die Regressionsgleichung aber die Streeung der y, es bleibt also eine unbekannte Streeung
Formel: Gesamtstreeung = erklärte Streuung + unerklärte Streeuung
-> aus der gleichung für die Streeuung kann ein Maß für den Erklärungsgrad abgeleitet werden -> r-Quadrat
-> r-Quadrat -> besserer Schätzer für den Populationswert -> wird von SPSS mitgeliefert
-> im bivariaten Fall ist r-Quadrat das Quadrat von Pearsons r
-> wenn mehr Regressoren auftauchen, dann verlängert sich die Gleichung um entsprechend viele Glieder
2 Vorgehensweisen:
Modell von SPSS aufgebaut
von uns hierarchisch gebildtet -> geben vor, in welcher Reihenfolge die einzelnen unabhängigen Variablen in das Modell aufgenommen werden -> Vorgehen wird gesteuert über die Definition von Blöcken
-> mehrere Modelle nacheinander erzeugt
-> für die Beurteilung kann “Änderung von R-Square” herangezogen werden -> muss in SPSS angekreuzt werden
-> für die Bewertung der Änderung wird von SPSS zusätzlich ein F-Test ausgegeben -> empfehlenswert ist die Erzeugung von Aikaike Information Criterion
-> AIC -> nicht absolut aussagefähig, aber beim Vergleich der Modelle hat das mit dem kleinsten AIC die bessere Anpassung an die Daten
-> Verhältnis, des durch seine Freiheitsgrade dividierten Bestimmtheitsmaßes zu dem komplementären Wert, der ebenfalls durch die Freiheitsgrade dividiert wird ist F-verteilt
H0: ρ2= 0
H1: ρ2> 0
i = Anzahl der Regressionen
n = Umfang der Stichprobe
f1 = i
f2 = n - i -1
-> Normalverteilung, t-Verteilung, χ2-Verteilung und F-Verteilung sind mathematisch auseinander herleitbar -> Normalverteilung ist die Basis dieser Verteilungen
-> χ2-Verteilung mit n Freiheitsgraden ist die Summe von n standardnormalverteilten Zufallsvariablen
-> F-Verteilung ist der Quotient zweier χ2-verteilten Variablen mit n bzw. m Freiheitsgraden -> enthält daher 2 Freiheitsgrade -> F (n,m)
-> integraler Bestandteil der Varianzanalyse
-> Sum of Squares regression = erklärte Streuung
-> Sum of Squares residuals = nichterklärte Streuung
-> Sum of Squares total = Gesamtstreuung
-> aus den Sum of Squares können die Meansquares gebildtet werden
-> aus Division der Sum of Squares
-> Quotient Meansquares regression und residuals ergibt F (Bestimtheitsmaß Signifikanztest)
-> bi hängen von der Maßeinheit und Streuung der Xi ab -> daher kein Vergleich des Einflusses der verschiedenen unabhängigen Variablen auf Y
-> daher wird eine Standardisierung vorgenommen:
Vorzeichen des ßi spielen beim Vergleich keine Rolle
-> die bi sind gemäß dem zentralen Grenzwertsatz t-verteilt mit einem geschätzten Standardfehler -> s-Dach von b von einem Wert
-> daraus leitete sich eine t-verteilte Prüfgröße für bi ab
-> ist Konfidenzintervall größer als 0, ist der Regressionskoeffizient nicht signifikant
Last changed2 years ago