Was bedeutet Signifikanz bei den präsentierten Befunden? Die vorliegenden empirischen Analysen basieren auf der ALLBUS. Die ALLBUS ist eine Stichprobe. Bei Stichproben besteht das Problem, dass empirische Ergebnisse (z.B. Mittelwerte, Regressionskoeffizienten), die auf Grundlage der Stichprobe berechnet werden, aufgrund von zufälligen Schwankungen um den „wahren“ Wert in der Grundgesamtheit streuen. Diese Streuung wird auch als Stichprobenschwankung bezeichnet. Auf Grundlage von Signifikanztests wird entschieden, ob ein empirisches Ergebnis einer Zufallsstichprobe auf die Grundgesamtheit übertragen werden darf. Für die Darstellung eines signifikanten Regressionskoeffizienten gibt es verschiedene Varianten. Am häufigsten wird ein signifikanter Regressionskoeffizient mit Sternchen (formal: Asterisk) angezeigt (siehe Tabelle 4), gelegentlich aber auch mit Buchstaben (siehe den Beitrag von Steinbrecher in diesem Band). Die Darstellung mit Sternchen oder Buchstaben wird häufig noch mit der Aufnahme der Standardfehler oder t-Werte ergänzt.3 Diese verschiedenen Angaben verfolgen alle das gleiche Ziel: Die Darstellung der (statistischen) Unsicherheit der Stichprobenergebnisse. In den Sozialwissenschaften wird in der Regel ein Befund als „signifikant“ bewertet, wenn der p-Wert des Regressionskoeffizienten kleiner als 0,05 (*) ist. Ein p-Wert kleiner als 0,05 entspricht – bei einer entsprechend großen Stichprobe – einem t-Wert, dessen Betrag größer als 1,96 ist. Häufig werden auch die Signifikanzniveaus p < 0,01 (**) und p < 0,001 (***) angezeigt.
Neben der Anzahl der Sternchen empfehlen Kopp und Lois (2014, S. 128) bei der Darstellung der Signifikanz auch die Angabe der Standardfehler, da dadurch der t-Wert bzw. das Konfidenzintervall jedes Regressionskoeffizienten berechnet werden kann.
Der p-Wert oder der t-Wert informiert über die Unsicherheit der Regressionsergebnisse bei Stichproben. Mit Signifikanz ist gemeint, dass ein Befund der Zufallsstichprobe auf die Grundgesamtheit übertragen werden kann. Die Signifikanz trifft keine Aussagen über die inhaltliche Bedeutsamkeit von Ergebnissen. In Tabelle 4 ist der Regressionskoeffizient des Geschlechts nicht signifikant. Der Regressionskoeffizient deutet zwar darauf hin, dass Frauen mit der Demokratie in Deutschland etwas zufriedener sind als Männer, aber dieser Befund ist nicht signifikant. In der ALLBUS-Stichprobe existiert zwar ein geschlechtsspezifischer Unterschied, aber das Ergebnis der Stichprobe kann nicht auf die Grundgesamtheit übertragen werden. Mit anderen Worten: Die Demokratiezufriedenheit unterscheidet sich nicht zwischen Männern und Frauen. In der empirischen Praxis werden nicht signifikante Regressionskoeffizienten nicht interpretiert
Für die inhaltliche Bewertung der Ergebnisse ist die Betrachtung der Effekte bzw. der Einflussstärken der unabhängigen Variablen auf die abhängige Variable bedeutsamer. In Tabelle 4 sind exemplarisch drei Darstellungsvarianten aufgeführt. Modell 1 zeigt die unstandardisierten Regressionskoeffizienten, Modell 2 präsentiert die standardisierten Regressionskoeffizienten (Beta-Koeffizienten) und bei Modell 3 handelt es sich um die unstandardisierten Regressionskoeffizienten. Bei dem dritten Modell wurden alle pseudometrischen unabhängigen Variablen (Indikatoren zur Wirtschaftslage und zum Alter der Befragten) auf den Wertebereich von 0 bis 1 vereinheitlicht.
Unstandardisierter Regressionskoeffizient
Allgemein zeigt ein unstandardisierter Regressionskoeffizient (Modell 1) die Veränderung des Werts der aV an, wenn sich die entsprechende uV um eine Einheit verändert. Der (unstandardisierte) Regressionskoeffizient des Alters beträgt 0,003. Dies bedeutet, dass mit jedem Lebensjahr die durchschnittliche Zufriedenheit mit der Demokratie um 0,003 Punkte zunimmt. Eine 40-jährige Person ist etwa 0,06 Punkte zufriedener mit der Demokratie als eine 20-jährige Person (20*0,003=0,06).
Bei der Bewertung der wirtschaftlichen Lage in Deutschland konnten die Befragten eine Zahl von 0 (sehr schlecht) bis 4 (sehr gut) wählen. Verändert sich die Bewertung der Wirtschaftslage um einen Skalenpunkt, dann erhöht sich die (geschätzte) Demokratiezufriedenheit um 0,436 Punkte. Eine Person, die mit der Wirtschaftslage sehr zufrieden ist (Wert=4), ist um 0,436 Punkte mit der Demokratie zufriedener als eine Person, die mit der Wirtschaftslage nur zufrieden ist (Wert=3). Die Demokratiezufriedenheit einer Befragten, die mit der Wirtschaftslage sehr zufrieden ist (Wert=4), ist 1,744 Punkte größer (4*0,436=1,744) als bei einem Befragten, der mit der Wirtschaftslage überhaupt nicht zufrieden ist (Wert=0).
Der unstandardisierte Regressionskoeffizient, der sich auf die persönliche wirtschaftliche Lage bezieht, kann analog interpretiert werden. Ändert sich die Zufriedenheit mit der persönlichen wirtschaftlichen Lage um einen Punkt, dann steigt die geschätzte Demokratiezufriedenheit um 0,201 Punkte. Da beide Indikatoren den gleichen Wertebereich abbilden (jeweils 0 bis 4), kann auch die Effektstärke der beiden Variablen verglichen werden. Offensichtlich hat die Zufriedenheit mit der nationalen Wirtschaftslage (0,436) einen stärkeren Einfluss auf die Demokratiezufriedenheit als die Zufriedenheit mit der eigenen wirtschaftlichen Situation (0,201).
Darstellung von Regressionsergebnissen: In wissenschaftlichen Veröffentlichungen werden Regressionsergebnisse in der Regel in Tabellen präsentiert. Damit sind allerdings nicht die Ergebnistabellen von Statistikprogrammen wie SPSS, Stata oder R gemeint. Für Veröffentlichungen (auch für Haus- und Abschlussarbeiten) müssen die Regressionstabellen so gestaltet werden, dass die wichtigsten Resultate für die Lesenden gut sichtbar und nachvollziehbar sind. Neben der Verwendung gehaltvoller Variablennamen müssen Regressionstabellen die Fallzahl und Angaben zur Unsicherheit der Ergebnisse enthalten. In der Tabellenlegende sind Informationen zum Regressionsverfahren sowie zu den dargestellten Regressionskoeffizienten erforderlich. Die Regressionstabellen in diesem Band oder in Veröffentlichungen in Fachzeitschriften geben eine erste Orientierung zur angemessenen Gestaltung von Regressionstabellen. Umfangreiche Hinweise zur angemessenen Gestaltung von Regressionsergebnissen finden sich bei Miller
Auch die Merkmale Bildung, Politikinteresse und Wertetyp werden als Dummyvariablen in der Regression berücksichtigt. Dabei werden jeweils drei Gruppen unterschieden. Bei der Bildung wird zwischen geringer, mittlerer und hoher Bildung differenziert, beim politischen Interesse zwischen schwachem, mittlerem und starkem politischem Interesse, beim Wertetyp zwischen Postmaterialisten, Materialisten und Mischtypen. Bei der Regression werden jeweils zwei der drei Gruppen explizit in das Regressionsmodell aufgenommen, die dann übrigbleibende dritte Gruppe bildet jeweils die Referenzkategorie. Entsprechend werden die Regressionskoeffizienten der beiden Gruppen immer in Bezug auf diese Referenzkategorie interpretiert
Der (unstandardisierte) Regressionskoeffizient der geringen Bildung (−0,119) ist folglich zur mittleren Bildungsgruppe zu interpretieren. Personen mit geringer Bildung haben eine um 0,119 geringere Demokratiezufriedenheit als Personen der mittleren Bildungsgruppe. Personen der hohen Bildungsgruppe haben eine um 0,096 Punkte größere Demokratiezufriedenheit als Personen der mittleren Bildungsgruppe.
Regressionskonstante: Die Konstante ist ein besonderer Regressionskoeffizient. Technisch gesehen ist die Regressionskonstante der Achsenabschnitt. Die Konstante gibt die durchschnittliche Zufriedenheit mit der Demokratie für die Personen an, bei denen alle uVs den Wert 0 haben. Mit Blick auf die berücksichtigten Variablen in Tabelle 4 kann die Regressionskontante wie folgt interpretiert werden: Eine männliche Person mit 0 Jahren, die in den alten Bundesländern lebt, mit der wirtschaftlichen Lage in Deutschland und der eigenen wirtschaftlichen Lage sehr unzufrieden ist, die über ein mittleres Bildungsniveau verfügt, ein mittleres politisches Interesse hat und eine Kombination beider Werte bevorzugt (Mischtypen
Selbstverständlich wird man sich eine solche Person kaum vorstellen können. In dieser Hinsicht sollte die Konstante auch nicht interpretiert werden. Der Wert der Konstanten ist allerdings erforderlich, um bestimmte Merkmalskombinationen zu berechnen. Zwei Beispiele: • Wie hoch ist die durchschnittliche Demokratiezufriedenheit eines 40-jährigen westdeutschen Mannes mit mittlerer Bildung, mittlerem politischen Interesse, einem gemischten Wertetyp sowie sehr großer Zufriedenheit mit der nationalen und eigenen wirtschaftlichen Lage? Die geschätzte Zufriedenheit liegt bei 4,384. Dieser Wert setzt sich aus der Konstanten (1,716), dem Altersterm (40*0,003) sowie der Bewertung der nationalen wirtschaftlichen Lage (4*0,436) und der persönlichen wirtschaftlichen Lage (4*0,201) zusammen.
Die Regressionskonstante ist nur erforderlich, um ausgewählte Merkmalskombinationen zu berechnen. Für die Falsifikation oder (vorläufige) Verifikation der Hypothesen ist die Regressionskonstante nicht erforderlich, weshalb sie bei Publikationen teilweise auch nicht ausgewiesen wird
Da sich die Wertebereiche allerdings unterscheiden, kann die Effektstärke der beiden Variablen nicht unmittelbar verglichen werden. Es ist (auf den ersten Blick) zumindest schwierig zu entscheiden, ob jetzt das Alter oder die Bewertung der wirtschaftlichen Situation einen stärkeren Einfluss auf die Zufriedenheit mit der Demokratie hat. Selbstverständlich können die maximalen Effekte händisch berechnet werden. Der maximale Effekt des Alters auf die Zufriedenheit mit der Demokratie liegt bei 0,219 (73*0,003), der maximale Effekt der Bewertung der eigenen Wirtschaftslage liegt bei 0,804 (4*0,201). Die Bewertung der eigenen Wirtschaftslage hat einen stärkeren Effekt auf die Zufriedenheit mit der Demokratie als das Alter.
standardisierte Regressionskoeffizienten (Beta-Koeffizienten)
Anstelle der (händischen) Berechnung der maximalen Effekte können die Effektstärken von Merkmalen mit unterschiedlichen Wertebereichen mit standardisierten Regressionskoeffizienten direkt verglichen werden. Die Interpretation ist allerdings weniger zugänglich als die Interpretation der unstandardisierten Regressionskoeffizienten. Der standardisierte Regressionskoeffizient des Alters wird wie folgt interpretiert:
• Ändert sich das Alter um eine Standardabweichung, dann ändert sich die Zufriedenheit mit der Demokratie um 0,043 Standardabweichungen.
• Ändert sich die Zufriedenheit mit der wirtschaftlichen Lage in Deutschland um eine Standardabweichung, dann ändert sich die Zufriedenheit mit der Demokratie um 0,29 Standardabweichungen.
• Ändert sich die Zufriedenheit mit der eigenen wirtschaftlichen Lage um eine Standardabweichung, dann ändert sich die Zufriedenheit mit der Demokratie um 0,142 Standardabweichungen.
Auf dieser Grundlage können die Effektstärken der drei Merkmale direkt verglichen werden. Auf den ersten Blick ist sichtbar, dass die Bewertung der nationalen Wirtschaftslage (Beta-Koeffizient: 0,29) einen stärkeren Einfluss auf die Zufriedenheit mit der Demokratie hat als die eigene wirtschaftliche Lage (Beta-Koeffizient: 0,142) und das Alter (Beta-Koeffizient: 0,043). Allerdings ist die Verwendung bzw. die Interpretation standardisierter Regressionskoeffizienten nicht ganz unproblematisch, unter anderem ist die Verwendung bei dichotomen Variablen wie Geschlecht und Erhebungsgebiet nicht zulässig (Kohler und Kreuter 2017, S. 288; siehe auch die Ausführungen bei Wolf und Best 2010, S. 625-628). In der empirischen Praxis wird dieser Aspekt häufig vernachlässigt.
unstandardisierte Regressionskoeffizienten, alle pseudometrischen unabhängigen Variablen (Indikatoren zur Wirtschaftslage und zum Alter der Befragten) auf den Wertebereich von 0 bis 1 vereinheitlicht.
Technisch ist das unproblematisch. Der ursprüngliche Wertebereich der Zufriedenheit mit der nationalen Wirtschaft reicht von 0 bis 4. Die Werte aller Befragten wurden durch 4 dividiert. Befragte, die vorher den Wert 1 hatten, haben nun den Wert 0,25. Personen, die den Wert 2 hatten, haben nach der Rekodierung den Wert 0,5. Befragte, die den Wert 3 hatten, haben nach der Division den Wert 0,75. Personen, die den Wert 4 hatten, haben den Wert „1“. Der Wert 0 ist die geringste empirische Ausprägung, der Wert 1 ist die höchste empirische Ausprägung.
In Modell 3 ändern sich die Regressionskoeffizienten der drei (pseudo)metrischen Variablen (Zufriedenheit mit der nationalen Wirtschaft und der persönlichen Wirtschaftslage sowie Alter) und die Regressionskonstante. Die Regressionskonstante bezieht sich jetzt nicht mehr auf 0-jährige Personen, sondern auf 18-jährige Befragte. Die Regressionskontante kann wie folgt interpretiert werden: eine männliche Person mit 18 Jahren, die in den alten Bundesländern lebt, mit der wirtschaftlichen Lage in Deutschland und der eigenen wirtschaftlichen Lage sehr unzufrieden ist, die über ein mittleres Bildungsniveau verfügt, ein mittleres politisches Interesse hat und eine Kombination beider Werte bevorzugt (Mischtyp).
Der einzige Unterschied zur Interpretation der Regressionskonstante in Modell 1 ist das Alter. In der Regressionskonstante des Modells 1 ist das Alter 0 Jahre, in der Regressionskonstante des Modells 3 ist das Alter 18 Jahre. Diese Differenz (18*0,003=0,054) unterscheidet die Regressionskonstanten des Modells 1 (1,716) und des Modells 3 (1,765). Die geringe Abweichung (1,765−1,716=0,049 statt 0,054) ist auf rundungsbedingte Unterschiede zurückzuführen.
Eine Bewertung des Gesamtmodells bietet das (korrigierte) R². Das R² gibt den Anteil der erklärten Varianz an der Gesamtvarianz an und liegt stets zwischen 0 und 1. Ein Problem von R² ist, dass es mit der Anzahl der berücksichtigten unabhängigen Variablen steigt. Je mehr Variablen in einem Regressionsmodell berücksichtigt werden, desto größer ist das R². Deshalb wird in der empirischen Praxis das korrigierte R² ausgewiesen, das die Zahl der uVs berücksichtigt. In Tabelle 4 liegt das (korrigierte) R² bei 0,197. Dies bedeutet, dass die berücksichtigen Variablen knapp 20 Prozent der Varianz erklären können. Für sozialwissenschaftliche Analysen ist dies ein durchaus akzeptabler Wert, der – bei Berücksichtigung weiterer unabhängiger Variablen – sicherlich noch steigen wird. Allerdings sollten Regressionsmodelle niemals ausschließlich auf Basis des (korrigierten) R² bewertet werden. Ein geringes R² deutet in der Regel aber darauf hin, dass wichtige Bestimmungsfaktoren der aV nicht berücksichtigt wurden
Die (multiple) Regressionsanalyse geht davon aus, dass die unabhängigen Variablen in einem linearen Zusammenhang mit der abhängigen Variable stehen. Verläuft der Zusammenhang jedoch in der Realität nicht-linear (z.B. quadratisch oder kubisch) und wird dies nicht explizit berücksichtigt, sind die Koeffizienten, Standardfehler und Signifikanztests unter Umständen verzerrt, je nachdem wie stark von einem linearen Zusammenhang abgewichen wird. Studierende sollten deshalb erstens überlegen, ob ein linearer Zusammenhang anhand der Theorie bzw. des Forschungsstands zu erwarten ist. Für viele sozialwissenschaftliche Phänomene können (umgekehrt) u-förmige bzw. kurvilineare Zusammenhänge angenommen werden. Zu denken ist etwa an den umgekehrt u-förmigen Zusammenhang zwischen Lebensalter und politischer Partizipation. Während die Partizipationsaktivität bis zu einem mittleren Lebensalter ansteigt, sinkt sie mit dem Erreichen des Rentenalters wieder ab, wobei sich verschiedene Partizipationsformen diesbezüglich unterscheiden (z.B. Melo und Stockemer 2014). Zweitens sollte empirisch stets geprüft werden, ob der Effekt eines erklärenden Merkmals linear verläuft oder anderweitig ausfällt. Dazu empfiehlt sich eine grafische Inspektion der bivariaten Zusammenhänge zwischen den unabhängigen Variablen und der abhängigen Variable, z.B. mittels eines Streudiagramms (sog. Scatterplot).
Innerhalb des Regressionsmodells können nicht-lineare Zusammenhänge durch den Einschluss quadratischer oder kubischer Terme (sog. Polynome) berücksichtigt werden (einführend z.B. Gujarati 2008, Kapitel 7.10). Ergibt etwa der Vergleich zwischen einem Modell mit und einem Modell ohne quadratischen Term eine signifikante Verbesserung der Modellgüte, so sollte der quadratische Term beibehalten werden. Alternativ kann die unabhängige Variable auch gruppiert und für jede Gruppe eine Dummy-Variable angelegt werden. Trägt man die Koeffizienten in einem Streudiagramm ab, sollten sie sich für einen linearen Effekt in etwa auf einer Linie befinden. In diesem Falle kann die Linearitätsannahme als erfüllt angesehen werden. Ist dies jedoch nicht der Fall, muss auf einen quadrierten Term ausgewichen oder die Dummy-Variablen beibehalten werden. Die erste Variante ist allerdings die elegantere, nicht zuletzt, weil sie zu schätzende Modellparameter einspart
Zu beachten ist dabei, dass sowohl für intervall- als auch ordinalskalierte Merkmale die Möglichkeit besteht, dass sie in einem nicht-linearen Zusammenhang mit der Einstellung zu Bürgerbeteiligung stehen. Solche Zusammenhänge können weder von Pearson’s r noch von Spearman’s Rho aufgedeckt werden. Grafische Darstellungen, z.B. mittels Streudiagrammen der Rohdaten bzw. der Mittelwerte des Bürgerbeteiligungsindex in den Einkommens- und Bildungsgruppen, können hier, wie bereits an anderer Stelle erläutert, Abhilfe schaffen. Zeigen sich kurvenförmige Verläufe, deutet dies auf nicht-lineare Zusammenhänge hin. Aus Platzgründen wird dieses Vorgehen im vorliegenden Beitrag nicht präsentiert. Auch in wissenschaftlichen Publikationen werden solche „Nebenanalysen“ normalerweise nicht ausführlich dargestellt und diskutiert. Gleiches gilt für die bivariaten Zusammenhangsanalysen, die ebenso oftmals ausgespart werden. Durchgeführt werden sollten sie jedoch in jedem Falle. Deuten diese Inspektionen der Daten auf Auffälligkeiten hin, sollten sie auch transparent gemacht werden. Für detaillierte Einblicke werden nun die zuvor bivariat untersuchten Merkmale in der folgenden Regressionsanalyse simultan analysiert, wobei auch nicht-lineare Zusammenhänge explizit getestet werden.
Zur Überprüfung der Hypothesen kommen multiple Ordinary Least Squares (OLS)-Regressionsmodelle zum Einsatz (einführend Backhaus et al. 2018, Kapitel 1).6 Diese versuchen, den durchschnittlichen Wert einer intervallskalierten abhängigen Variable – im vorliegenden Beispiel die Einstellung zu Bürgerbeteiligung – anhand einer Reihe unabhängiger Variablen vorherzusagen bzw. zu „erklären“. Intervallskalierte unabhängige Variablen bzw. „erklärende“ Merkmale werden dabei unverändert in die Analyse eingeführt. Für die inhaltliche Interpretation der Regressionskonstante ist es allerdings erforderlich, dass jede unabhängige Variable empirisch den Wert 0 annehmen kann. Für die Prüfung der Hypothesen ist die Regressionskonstante allerdings entbehrlich. Der geschätzte Koeffizient gibt jeweils an, um wie viele Einheiten sich die abhängige Variable verändert, wenn die entsprechende unabhängige Variable um eine Einheit ansteigt. Die übrigen Merkmale werden dabei konstant gehalten bzw. kontrolliert. Kategoriale Merkmale (z.B. Geschlecht, Migrationshintergrund, Landesteil) mit n Ausprägungen müssen hingegen in n−1 Dummy-Variablen zerlegt werden, also Variablen, die lediglich die Werte 0 und 1 annehmen können (Gujarati 2008, Kapitel 9). Die Koeffizienten dieser Variablen bilden den durchschnittlichen Unterschied zwischen Untersuchungseinheiten mit diesem Merkmal (z.B. Geschlecht mit 1=weiblich) und der Vergleichsgruppe (sog. Referenzkategorie) ab (z.B. Geschlecht mit 0=männlich). Hat die unabhängige Variable mehr als zwei Ausprägungen, so muss die Referenzkategorie festgelegt werden, im Modell werden dementsprechend n−1 Koeffizienten geschätzt. Dabei sollte jedoch darauf geachtet werden, dass zum einen die Referenzkategorie vor dem Hintergrund der Fragestellung sinnvoll interpretierbar ist und zum anderen für alle Kategorien ausreichend viele Beobachtungen vorliegen. Sofern dies inhaltlich gerechtfertigt ist, müssen schwach besetzte Kategorien gegebenenfalls zusammengefasst werden
Insbesondere in der Ökonomie, aber auch in sozialwissenschaftlichen Fachzeitschriften ist es oftmals üblich, das zu schätzende Modell anhand einer Gleichung zu präsentieren. Insbesondere bei komplexeren Modellen kann dies einen einfachen Überblick darüber bieten, was in einer Analyse genau geschieht. Für das Basismodell ohne Interaktionen und nicht-lineare Zusammenhänge ergibt sich die folgende Modellgleichung:
Yi 𝐸instellung Bürgerbeteiligung= ß0+ß1xi Unzufriedenheit+ß1xi Werteorientierung: Selbsttranszedenz+ß3xi Werteorientierung: Offenheit für Veränderung+ ß4xi Ideologie+ ß5xi Bildung+ ß6xi Einkommen+ ßjxi Kontrollvariablen+ Ei
In dieser Formel ist 𝑌𝑌𝑖𝑖 die abhängige Variable „Einstellung zu Bürgerbeteiligung“. 𝛽𝛽0 stellt den Achsabschnitt dar (oftmals als Konstante oder intercept bezeichnet), also den durchschnittlichen geschätzten Wert der abhängigen Variable, wenn alle unabhängigen Variablen den Wert 0 annehmen. Auf das vorliegende Beispiel übertragen: Eine Person, die völlig zufrieden mit dem Funktionieren der Demokratie ist, die beide Wertorientierungen nicht vertritt, sich politisch extrem links verortet, über geringe formale Bildung und über ein Einkommen unter 1500 Euro verfügt, zur jüngsten Altersgruppe gehört, männlich ist und in Westdeutschland lebt. Diese Merkmalskombination muss empirisch nicht auftreten. Für die Hypothesenprüfung ist der Achsenabschnitt nicht relevant. 𝛽𝛽1–6 sind die zu schätzenden Regressionskoeffizienten für die theoretisch-inhaltlich relevanten Merkmale. Sie geben die durchschnittliche Veränderung des Bürgerbeteiligungsindex an, wenn die betreffende unabhängige Variable um eine Einheit ansteigt. 𝑥𝑥𝑖𝑖 stellt in diesem Zusammenhang den Vektor der empirisch beobachteten Merkmalsausprägungen entsprechend der Anzahl der Untersuchungseinheiten i dar. Die Kontrollvariablen, an denen – wie der Name impliziert – kein direktes inhaltliches Interesse besteht, werden aus Gründen der Übersichtlichkeit als Matrize mit j Koeffizienten entsprechend der Anzahl an Kontrollvariablen in die Formel eingeführt. 𝜀𝜀𝑖𝑖 ist schließlich der Fehlerterm, der nicht beobachtbare Einflüsse und Messfehler absorbiert. Dieser Fehlerterm lässt sich nicht beobachten, sondern wird anhand der Stichprobendaten durch die Residuen (Abweichung zwischen beobachteten und vom Modell geschätzten Werten der abhängigen Variable) approximiert
Um konfundierende Einflüsse zu ermitteln bzw. Veränderungen der Koeffizienten, die aus der Aufnahme zusätzlicher Merkmale resultieren, nachvollziehen zu können, empfiehlt sich eine schrittweise Aufnahme der Variablen. Im vorliegenden Fall werden zunächst die Variablen separat für die drei in Abschnitt 2 skizzierten Hypothesenblöcke in die Analyse eingeführt. Anschließend wird das in der obenstehenden Formel dargestellte vollständige Modell unter Einschluss der Kontrollvariablen geschätzt. Dabei ist zu beachten, dass sich aufgrund fehlender Angaben der Befragten die Beobachtungszahlen reduzieren können, wenn das Modell komplexer wird. Hier ist sicherzustellen, dass entweder alle Modelle mit denselben Beobachtungen geschätzt werden oder aber der Wegfall bestimmter Beobachtungen nicht systematisch bedingt ist (z.B. weil bestimmte Bevölkerungsgruppen die Antwort auf eine sensible Frage verweigerten oder ein Fehler bei der Datenerhebung auftrat). Im Extremfall führen solche Ausfälle zu verzerrten Ergebnissen, da das Modell für eine Subpopulation geschätzt wird.
Erstens ist die statistische Signifikanz wichtig, um zu prüfen, ob der Befund der Stichprobe wahrscheinlich auch in der Grundgesamtheit existiert. In der Regel geht man nur auf die Effekte der Variablen ein, für die ein statistisch signifikanter Effekt vorliegt. Diese Ergebnisse können dann auf die Grundgesamtheit übertragen werden. Nicht statistisch signifikante Koeffizienten werden nicht interpretiert.
Zweitens ist das Vorzeichen der unstandardisierten Logitkoeffizienten (b) von Bedeutung für die Bestimmung der Richtung des Zusammenhangs zwischen unabhängiger und abhängiger Variable. Ein positiver Effekt heißt, dass das Vorliegen des Merkmals bzw. ein höherer Wert auf der entsprechenden Variable die (logarithmierte) Wahrscheinlichkeit der Wahlbeteiligung unter Kontrolle der anderen unabhängigen Variablen im Modell erhöht. Bei einem negativen Effekt senkt eine Zunahme bzw. das Vorliegen des Merkmals die logarithmierte Wahrscheinlichkeit, an der Bundestagswahl 2021 teilzunehmen. Inhaltlich sind die Logitkoeffizienten leider nicht so interpretierbar wie die Effektkoeffizienten in der OLS-Regression, trotz aller „augenscheinlichen Parallelen“
Drittens ist die Größe der Effektkoeffizienten (Exp(b)) besonders wichtig, da sie als Wahrscheinlichkeitsveränderungen interpretiert werden können, wenn die unabhängige Variable sich um eine Einheit verändert bzw. das entsprechende Merkmal vorliegt. Liegt der Wert der Exp(b)-Koeffizienten über 1, nimmt die Wahrscheinlichkeit zu; liegt er zwischen 0 und 1, nimmt sie ab. Dementsprechend kann man auf Basis der Exp(b)-Werte auch prüfen, welche unabhängigen Variablen einen stärkeren oder schwächeren Einfluss auf die abhängige Variable haben
Viertens ist die Höhe von Nagelkerkes R2 bzw. anderer Pseudo-R²-Maße wichtig zur Bestimmung der Modellgüte. Der Wertebereich für alle Gütemaße liegt zwischen 0 und 1. Je höher der Wert ist, desto besser passt das Modell auf die Daten. Man kann auch über mehrere Modelle hinweg die Modellgüte vergleichen, um Anhaltspunkte für die Bedeutung einzelner Variablen oder Variablengruppen zu erhalten. Bei logistischen Regressionen haben Forschende unterschiedliche Formeln für die Berechnung von Pseudo-R2 entwickelt. SPSS gibt standardmäßig Nagelkerkes R2 aus, das systematisch höhere Werte erzeugt als andere Pseudo-R²-Maße
Last changed5 months ago