Opp (2014, S. 119) versteht unter einer Definition die Einführung einer Konvention über die Verwendung bestimmter Begriffe. Sie soll zu mehr Klarheit und Deutlichkeit beitragen, indem bestimmte Dinge, Sachverhalte oder Ereignisse eindeutig abgegrenzt werden können. In den Sozialwissenschaften werden drei verschiedene Definitionsarten unterschieden: Nominaldefinition,Realdefinition und operationale Definition.
Nominaldefinitionen
Bei einer Nominaldefinition handelt es sich um eine reine Bedeutungsübertragung. Ein bestimmter Ausdruck A 1 wird mit einem anderen Ausdruck A2 gleich-
gesetzt. Dabei wird die Bekanntheit des Ausdrucks A1 vorausgesetzt (Opp 2014, S. 119). Entsprechend besteht eine Nominaldefinition aus zwei Bestandteilen: Definiens (A1) und Definiendum(A2).
Das Definiendum (übersetzt: „das zu Definierende“) ist der Ausdruck, für den die Definition erstellt werden soll. Das Definiens (übersetzt: „das Definierende“) ist der Ausdruck, der das Definiendum bestimmt (bzw. definiert).
Eine Nominaldefinition legt fest, wie ein (neuer) Begriff verwendet wird, indem sie auf bereits
bekannte bzw. definierte Begriffe Bezug nimmt. In Tabelle 1 finden sich einige Beispiele für No-
minaldefinitionen. Die Nominaldefinition für Schimmel ist „Pferd mit weißem Fell“, ein Rappe ist ein „Pferd mit schwarzem Fell“ und die Bezeichnung Fohlen wird für ein „Junges Pferd“ verwendet. Eine Nominaldefinition ist eine kurze und handliche Bezeichnung für einen (mehr oder weniger) komplexen Begriff
Bei einer Nominaldefinition ist es möglich, dass die im Definiens verwendeten Begriffe selbst nicht eindeutig sind. Sollte beispielsweise unklar sein, was mit „Pferd“ oder „Fell“ gemeint ist, dann müssten beide Begriffe selbst zum Definiendum erhoben werden. Dies führt dann zu weiteren Definitionen. Um einen unendlichen Definitionsprozess zu vermeiden („definitorischer Regress“), muss der Definitionsprozess an einer Stelle abgebrochen werden. Bestimmte Begriffe müssen in ihrer Bedeutung als allgemein verständlich akzeptiert werden
Bei einer Nominaldefinition sind definitorische Zirkel zu vermeiden. Dabei handelt es sich um Definitionen, „in denen die zu definierenden Begriffe selbst zur Definition verwendet werden“ (Opp 2014, S. 123). „Politische Beteiligung ist, wenn sich ein Bürger politisch beteiligt“ ist ein einfaches Beispiel für einen definitorischen Zirkel.
Nominaldefinitionen erfüllen eine wichtige sprachökonomische Funktion. Mit Hilfe eines „kurzen“ Begriffs (z.B. Hypothese) können längere Formulierungen (z.B. Aussage über einen Zusammenhang zwischen mindestens zwei Merkmalen) vermieden werden. Mit Nominaldefinitionen wird einerseits Platz in Publikationen gespart und andererseits die Kommunikation zwischen Wissenschaftlern beschleunigt (Opp 2014, S. 121). Deshalb bieten sich Nominaldefinitionen an, wenn ein Definiens relativ häufig benötigt wird.
Die Nominaldefinition ist ein wichtiger Bestandteil der Konzeptspezifikation (siehe Kapitel 5).Schnell et al. (2018, S. 112) betrachten die Konzeptspezifikation als „eine spezielle Art der Nominaldefinition“. Nominaldefinition und Konzeptspezifikation zielen jeweils darauf ab, einen unklaren Begriff eindeutig zu definieren und von anderen Begriffen abzugrenzen, damit die gemeinte Bedeutung der verwendeten Begriffe von allen Personen erfasst werden kann.
Realdefinitionen
Von Nominaldefinitionen sind Realdefinitionen abzugrenzen, die darauf abzielen, das Wesen eines Sachverhalts zu erfassen (Opp 2014, S. 124-125; Kromrey et al. 2016, S. 157-160). Bei einer Realdefinition wird nicht geklärt, wie beispielsweise Begriffe wie „Mensch“ oder „Staat“ verwendet werden oder sollten, sondern was „Mensch“ und „Staat“ ihrem Wesen nach sind.
Damit ist eine Realdefinition eine Behauptung über die Beschaffenheit bzw. das Wesen eines
Sachverhalts. Während eine Nominaldefinition mehr oder weniger zweckmäßig ist, kann eine Realdefinition richtig oder falsch sein. Eine Realdefinition legt die Eigenschaften eines Sachverhalts, die für den Sachverhalt „wesentlich“ – nicht was vereinbarungsgemäß als wesentlich betrachtet wird – sind, verbindlich fest (Kromrey et al. 2016, S. 159).
Allerdings gibt es keine objektiven Kriterien, ob durch eine vorgeschlagene Realdefinition das Wesen eines Sachverhalts auch angemessen erfasst wird. Mit anderen Worten: Es kann nicht geklärt werden, ob eine Realdefinition richtig oder falsch ist.Nach Schnell et al. (2018,
S. 45) eignen sich deshalb Realdefinitionen nicht für wissenschaftliche Arbeiten, da keine Kriterien existieren, ob das Wesen eines Sachverhalts durch die Definition auch angemessen erfasst wird.
Operationale Definitionen
Operationale Definitionen schaffen eine Verbindung zwischen Begriffen und
der Realität. Eine operationale Definition legt fest, wie ein theoretischer Begriff
(z.B. Intelligenz) mit Indikatoren zu verknüpfen ist, die sich empirisch beobachten lassen (Opp
2014, S. 133-141). Die Übersetzung eines theoretischen Begriffs in empirische Indikatoren wird allgemein „Operationalisierung“ genannt und in Kapitel 7 ausführlich behandelt.
Wichtig ist an dieser Stelle der Hinweis, dass Begriffen wie „Bildung“ oder „Demokratie“ in empirischen Studien durchaus unterschiedliche Indikatoren zugeordnet werden. Das heißt, die Indikatoren eines Begriffs unterscheiden sich zwischen Studien. Dies kann erhebliche Konsequenzen für die empirischen Ergebnisse haben. Bei der kritischen Auseinandersetzung mit empirischen Studien müssen deshalb stets die verwendeten Indikatoren auf ihre Angemessenheit überprüft werden.
Eine Variable ist ein sozialwissenschaftliches Merkmal mit mindestens zwei Ausprägungen. Ein
Merkmal mit nur einer Ausprägung wird Konstante bezeichnet.
Variable
Der Begriff Variable deutet auf die Variabi-
lität eines Merkmals hin. Bei der Variable Geschlecht lassen sich beispielsweise Männer und Frauen unterscheiden, bei Gemeinden kleine und große Gemeinden und bei (demokratischen) Staaten
parlamentarische, präsidentielle und semipräsidentielle Regierungsformen.
Manifeste und latente Variablen: Abhängige und unabhängige Variable18
Definition: Variable und Konstante
Eine Variable ist ein sozialwissenschaftliches Merkmal mit mindestens zwei Ausprägungen. Ein Merkmal mit nur einer Ausprägung wird Konstante bezeichnet.
Die Bezeichnung Variable ist eine allgemeine Beschreibung – ein sogenannter Platzhalter – für ein sozialwissenschaftliches Merkmal. Der Inhalt einer Variable (z.B. Geschlecht, Gemeindegröße oder Staatsform) ist jeweils von der konkreten Forschungsfrage abhängig.
In den Sozialwissenschaften werden manifeste und latente Variablen unterschieden. Bei manifesten Variablen handelt es sich um sozialwissenschaftliche Merkmale, die direkt beobachtbar sind. Eine manifeste Variable ist beispielsweise das Geschlecht, die Größe oder auch die Haarfarbe einer Person. Dagegen sind latente Variablen Merkmale, die sich der direkten Beobachtung entziehen. Latente Variablen sind beispielsweise Intelligenz, Einstellungen wie Ausländerfeindlichkeit oder auch soziales Vertrauen. Für eine empirische Untersuchung müssen latente Variablen erst „beobachtbar“ gemacht werden. Dieser Vorgang wird als Operationalisierung bezeichnet
Abhängige und unabhängige Variable:
Zur allgemeinen Bezeichnung von (vermuteten) Zusammenhängen zwischen
zwei Merkmalen haben sich in der Wissenschaftssprache die Abkürzungen aV
und uV durchgesetzt.1 Die Abkürzung aV steht für abhängige Variable (auch als bedingte Vari-
able, Zielvariable oder Kriteriumsvariable bezeichnet), die Bezeichnung uV für unabhängige Variable. Die abhängige Variable bezeichnet den Sachverhalt, der erklärt werden soll. Die unabhängige Variable ist die Bezeichnung für das Merkmal, das einen (vermuteten) Einfluss auf die abhängige Variable ausübt. Die uV wird manchmal auch erklärende Variable oder Prädiktorvariable genannt. Abbildung 1 illustriert die Beziehung zwischen unabhängiger und abhängiger Variable. Das Modell unterstellt, dass die uV einen (kausalen) Einfluss auf die aV ausübt
Die Festlegung eines Merkmals als abhängige oder unabhängige Variable basiert auf theoretischen Überlegungen und ist kontextspezifisch. Je nach Fragestellung kann zum Beispiel das politische Interesse eine abhängige oder eine
unabhängige Variable sein. Bei der oberen Forschungsfrage in Tabelle 3 wird ein Zusammenhang zwischen Bildung und politischem Interesse postuliert. Bildung (uV) hat einen vermuteten Einfluss auf das politische Interesse (aV). Bei der unteren Forschungsfrage in Tabelle 3 steht die Wahlteilnahme (aV) im Vordergrund. Es werden Prädiktoren (uVs) gesucht, die einen Einfluss auf die aV ausüben. Eine mögliche unabhängige Variable könnte das politische Interesse sein
In einer wissenschaftlichen Arbeit steht meist eine abhängige Variable im Mittelpunkt. Es wer-
den aber mehrere unabhängige Variablen betrachtet, die die abhängige Variable „erklären“ sollen. Auf Basis des Forschungsstands werden die möglichen unabhängigen Variablen identi-
fiziert, die einen Einfluss auf die abhängige Variable haben können. Die möglichen Zusammenhänge zwischen uV und aV sind theoretisch zu begründen und empirisch zu überprüfen.
Der Unterscheidung zwischen aV und uV liegt eine vermutete Ursache-Wirkungs-Beziehung zugrunde, die Differenzierung zwischen Mikro- und Makroebene basiert auf einer Trennung der
Analyseebenen.
Bei der Mikroebene handelt es sich um die Individualebene, bei der Makroebene
um die gesellschaftliche Ebene. Die Makroebene wird häufig auch als Aggregatebene bezeichnet.
An einem Beispiel lässt sich der Unterschied zwischen Mikro- und Makroebene illustrieren: In Abbildung 2 stellt die Wahlbeteiligung jeweils die abhängige Variable dar. Bei der Analyse der Wahlbeteiligung kann zwischen der individuellen Wahlbeteiligung und der gesellschaftlichen Wahlbeteiligung unterschieden werden. Übersetzt in eine Forschungsfrage: Warum unterscheidet sich die Wahlbeteiligung zwischen den Bürgerinnen und Bürgern? Warum unterscheidet sich die Wahlbeteiligung zwischen Nationalstaaten?
—>Bei der Betrachtung auf der Mikroebene (erste Forschungsfrage) werden Beziehungen zwischen Individualmerkmalen, bei der Analyse auf der Makroebene (zweite Forschungsfrage) werden Zusammenhänge zwischen
Systemeigenschaften betrachtet.
Auf der Mikroebene werden individuelle Merkmale (uVs) gesucht, die einen Einfluss auf die individuelle Wahlbeteiligung (aV) haben. Einen solchen Faktor stellt beispielsweise das politische Interesse dar (uV). Bisherige Forschung konnte wiederholt einen positiven Zusammenhang zwischen politischem Interesse und Wahlbeteiligung nachweisen: Je stärker das politische Interesse, desto höher die Wahrscheinlichkeit der Beteiligung an Wahlen
Die Makroebene bzw. die gesellschaftliche Ebene wird häufig mit der nationalstaatlichen Ebene gleichgesetzt. Bei der Wahlbeteiligung wird beispielsweise die unterschiedliche Wahlbeteiligung zwischen Nationalstaaten betrachtet. Entsprechend stellt der Nationalstaat die Analyseeinheit dar. Makroanalysen sind aber nicht nur auf den Nationalstaat begrenzt. Mit Blick auf die Bundesrepublik Deutschland stellen die 16 Bundesländer ebenfalls eine gesellschaftliche Ebene dar und selbstverständlich können auch die Unterschiede der Wahlbeteiligung zwischen Bundesländern analysiert werden
Mesoebene: In der Literatur wird neben der Makro- und Mikroebene häufig noch die Me-
soebene unterschieden. Dabei handelt es sich um eine analytische Ebene zwischen Mikro- und Makroebene. Zwischen der (gesamt-)gesellschaftlichen Ebene und dem sozialen Handeln des Individuums stehen beispielsweise Verbände, Parteien oder etwas allgemeiner: Organisationen
Forschungsziel:
Das Ziel qualitativer Forschung ist das Verstehen spezifischer Handlungen und
Praktiken der Menschen. In dieser Perspektive wird der subjektive Sinn, den Individuen mit ihren Handlungen und Praktiken verbinden, zum empirischen Ansatzpunkt (Flick
2011, S. 34). Qualitativ arbeitende Wissenschaftler fragen, wie dieser Sinn für die Menschen zustande gekommen ist, wie er ihr Handeln und ihre Entscheidungen prägt und sich verändert. Dazu werden Situationen detailliert nachgezeichnet, soziale Interaktionen
rekonstruiert und Regeln gesellschaftlichen Handelns offengelegt. Durch die Interpretation einer Handlung oder Situation – in der Regel auf Basis von Texten – wird auf die spezifische Sichtweise
und Deutungsmuster der Akteure geschlossen. Im Mittelpunkt qualitativer Forschung steht das
Verstehen des subjektiven Sinns der Akteure bei Handlungen
Das Ziel quantitativer Forschung ist die Erklärung sozialwissenschaftlicher Phänomene. Quantitativ arbeitende Sozialforscherinnen orientieren sich dabei an den Naturwissenschaften, in denen allgemeingültige Gesetzmäßigkeiten gesucht werden, die Erklärungen und Prognosen ermöglichen.
Entsprechend suchen Sozialwissenschaftler nach sozialen Regelmäßigkeiten, die soziale Phänomene erklären können. Dazu werden Annahmen („Hypothesen“) über mögliche Zusammenhänge von Merkmalen formuliert, die anschließend empirisch überprüft werden. In Abgrenzung zu den Naturwissenschaften formulieren quantitativ arbeitende Sozialforscher allerdings keine deterministischen, sondern probabilistische Hypothesen
Forschungsprozess
In der qualitativen Sozialforschung ist der Forschungsprozess zirkulär angelegt.
Die verschiedenen Phasen einer Untersuchung – Forschungsfrage, Datenerhebung und Datenauswertung – sind einerseits nicht klar voneinander abgegrenzt und andererseits existiert auch keine bestimmte Reihenfolge dieser Phasen (Przyborski und Wohlrab-Sahr 2019).
Qualitative Forscher betonen die Offenheit des qualitativen Forschungsprozesses gegenüber dem Untersuchungsgegenstand, die die theoretische und methodische Ebene betrifft. Bei der Auseinandersetzung mit dem Forschungsfeld werden Fragestellung, Konzepte und Instrumente immer wieder überprüft und angepasst. Je offener das Verfahren, desto genauer muss
allerdings jeder einzelne Verfahrensschritt expliziert und dokumentiert werden
In der quantitativen Sozialforschung ist der Forschungsprozess stärker linear organisiert. Ausgehend von einer Forschungsfrage werden zunächst Konzepte spezifiziert und Hypothesen formuliert, bevor Daten erhoben und ausgewertet werden. Auf Basis empirischer Daten werden schließlich Hypothesen überprüft. Wenn die Daten die Hypothesen stützen, dann gelten die Hypothesen vorläufig als bestätigt. Falls die Daten nicht mit den Hypothesen übereinstimmen, dann gelten die Hypothesen als widerlegt (falsifiziert). In der Forschungspraxis sind auch beim quantitativen Forschungsprozess „Überschneidungen, Sprünge und Rückkopplungen“ (Kromrey et al. 2016, S. 69) zu beobachten, aber quantitative Forschungsdesigns sind in ihrer Grundstruktur linear-chronologisch aufgebaut
Fallzahl
Qualitative Forscherinnen setzen sich mit dem Datenmaterial intensiv auseinander, um die Einzigartigkeit des Menschen und die Kontextgebundenheit sozialer Interaktionen zu verdeutlichen. Entsprechend werden möglichst viele empirische Informationen
pro Fall (z.B. Personen) gesammelt, um soziale Interaktionen detailliert zu rekonstruieren. Die
Sammlung, Aufbereitung und Analyse der Daten eines Falls ist sehr aufwändig, sodass innerhalb einer qualitativen Untersuchung häufig nur wenige oder auch nur ein Fall betrachtet wird.
Bei einer quantitativen Untersuchung werden die empirischen Informationen standardisiert erfasst, z.B. durch eine Befragung mit vorgegebenen Antwortmöglichkeiten. Dabei werden individuelle Besonderheiten bei der Datensammlung systematisch ausgeblendet. Die Befragte kann
nicht mit „eigenen Worten“ antworten, sondern wählt eine vorgegebene Antwort aus. Dadurch
ist die Informationsdichte für den einzelnen Fall bei einer quantitativen Datenerhebung zwar ge-
ringer als bei einer qualitativen Datenerhebung, dafür werden empirische Informationen von vielen Fällen (z.B. Personen) gesammelt. Die konkrete Anzahl der Fälle variiert in Abhängigkeit von der Forschungsfrage. Bei einer quantitativen Analyse auf Makroebene (z.B. Staaten) liegt die Fallzahl meist im mittleren zweistelligen Bereich, bei einer Analyse auf Individualebene (z.B. Personen) werden häufig mehrere Tausend Fälle untersucht.
Forschungsdaten
Qualitative Sozialforscher erheben ihre empirischen Daten in der Regel offen –
mit Hilfe nicht standardisierter Interviews, wenig strukturierter Beobachtungen
oder Erzählungen. Die empirischen Informationen liegen als Texte vor, etwa in Form von Beschrei- bungen oder Protokollen. Konzepte und Merkmale werden in Worten erfasst; die verbale Form der Datensammlung ermöglicht eine vielfältige und detaillierte Datenerfassung
In der quantitativen Sozialforschung dominieren standardisierte Verfahren der Datenerhebung
(z.B. Befragung). Die gesammelten empirischen Informationen werden in Zahlen „übersetzt“. Bei
einigen Merkmalen, beispielsweise Alter oder Einkommen der Befragten, ist das relativ einfach.
Quantitative Forschung erfasst jedoch auch komplexere soziale Merkmale (z.B. das politische Interesse oder das soziale Vertrauen) in Zahlen. Die Zuordnung von Zahlen zu Objekten wird in der empirischen Sozialforschung als Messung bezeichnet (Stevens 1946). Diese Zahlen bilden die Grundlage für die spätere (statistische) Datenanalyse.
Hypothesen
Bei Hypothesen handelt es sich – vereinfacht formuliert – um (plausible) Vermutungen über den Zusammenhang zwischen zwei Merkmalen. Ein Kennzeichen qualitativer Forschung ist es, Hypothesen zu Beginn des Forschungsprozesses (wenn überhaupt) noch sehr allgemein zu formulieren, um neue Aspekte, die bei der Auseinandersetzung mit dem Untersuchungsgegenstand sichtbar werden, noch berücksichtigen zu können. Hypothesen werden deshalb in Auseinandersetzung mit dem Untersuchungsgegenstand for-
muliert und überprüft.
Bei einem quantitativen Untersuchungsdesign werden Hypothesen explizit vor der Datenerhebung und der Datenanalyse formuliert. Auf Basis theoretischer Überlegungen und existierender empirischer Befunde (Forschungsstand) werden allgemeine Zusammenhänge zwischen Merkmalen (Hypothesen) formuliert. Die Hypothesen werden anschließend überprüft. Auf Basis empirischer Daten wird beispielsweise untersucht, ob sich ein Zusammenhang zwischen zwei Merkmalen (z.B. politisches Interesse und Wahlbeteiligung) nachweisen lässt oder nicht. Die empirische Prüfung führt zu einer (vorläufigen) Bestätigung oder Widerlegung einer Hypothese. Quantitative Forschung geht damit hypothesenprüfend, qualitative Forschung hypothesengenerierend vor.
Forschungslogik
Qualitative Sozialforscher folgen einer induktiven Forschungslogik. Bei der In-
duktion wird von Einzelfällen (konkrete Beobachtung) auf eine allgemeine Re-
gel („Gesetz“) geschlossen. Auf Basis des Einzelfalls bzw. weniger Fälle formulieren qualitativ arbeitende Sozialforscher allgemeine Aussagen. Die wiederholte Beobachtung des gleichen Falls oder verschiedener Fälle erhöht zwar die Wahrscheinlichkeit einer allgemeinen Regel, aber die induktive Methode kann eine allgemeine Regel nicht abschließend belegen (Krumm 2018, S. 124). Dazu müssten „alle“ Fälle untersucht werden.
Quantitative Sozialforscherinnen orientieren sich an der deduktiven Forschungslogik. Deduktion meint den Schluss vom Allgemeinen auf das Besondere. Aus allgemeinen Theorien werden empirisch überprüfbare Hypothesen abgeleitet. Diese Hypothesen werden dann am „Einzelfall“ überprüft. Ein Beispiel: Die allgemeine Hypothese „Je stärker das politische Interesse, desto wahrscheinlicher die Beteiligung an einer Wahl“ bezieht sich nicht auf ein konkretes Land oder eine konkrete Wahl. Entsprechend sollte der Zusammenhang zwischen politischem Interesse und Wahlbeteiligung sowohl bei den Wahlen zum amerikanischen Kongress als auch bei der Oberbürgermeisterwahl in Hagen nachweisbar sein. In einem quantitativen Forschungsprojekt wird die allgemeine Hypothese überprüft (z.B. Zusammenhang zwischen politischem Interesse und Wahlbeteiligung bei der Bundestagswahl)
Auswertung
Qualitative Sozialforscher nutzen Auswertungsverfahren, die der jeweiligen For-
schungsfrage sowie der offenen Struktur der Daten angemessen sind. Przyborski und Wohlrab-Sahr (2014, S. 189) unterscheiden vier verschiedene Auswertungsverfahren, die in der qualitativen Sozialforschung eine wichtige Rolle spielen: die Methodologie der Grounded Theory, das Verfahren der Narrationsanalyse, die objektive Hermeneutik und die dokumentarische Methode.
Bei einer quantitativen Datenerhebung werden den empirischen Informationen Zahlen zugeordnet. Ein Beispiel: Bei einer Befragung werden die Personen nach ihrem politischen Interesse gefragt. Als Antwort können die Befragten zwischen den Alternativen „sehr interessiert“, „ziemlich interessiert“, „wenig interessiert“ und „überhaupt nicht interessiert“ wählen. Die einzelnen Antwortmöglichkeiten sind mit Zahlen verknüpft, z.B. 0 für „überhaupt nicht interessiert“ und 3 für „sehr interessiert“. Die numerische Kodierung der verbalen Antworten erlaubt quantitativen Sozialforschern die empirischen Informationen mit Hilfe statistischer Verfahren auszuwerten. Die Regression bzw. die Regressionsanalyse ist dabei das zentrale Analyseverfahren in den Sozialwissenschaften (z.B. Urban und Mayerl 2018). Eine Regression zielt darauf ab, die Werte eines oder
mehrerer Merkmale (unabhängige Variablen) zur Erklärung eines anderen Merkmals (abhängige Variable) heranzuziehen. Beispiel: Es werden die Merkmale Alter, Bildung und Berufserfahrung (uVs) genutzt, um das Einkommen (aV) zu „erklären“.
Generalisierung
Wissenschaftliche Forschung ist an Generalisierung interessiert (Verallgemeine-
rung). Generalisierung setzt die Abstraktion vom Einzelfall voraus. Bei der Generalisierung sind qualitative Sozialforscher mit zwei Herausforderungen konfrontiert:
Zum einen arbeiten qualitative Forscherinnen in der Regel mit kleinen Fallzahlen – manchmal sogar nur mit Einzelfällen. Diese Einzelfälle werden zwar sehr intensiv analysiert, erlauben allerdings nicht unmittelbar den Schluss vom Besonderen auf das Allgemeine (Induktion). Zum anderen wählen qualitative Sozialforscher ihre Untersuchungsfälle meistens gezielt aus („Theoretical Sampling“). Eine gezielte Auswahl kann immer auch willkürlich sein, sodass möglicherweise eine selektive, das heißt eine verzerrte Auswahl der Untersuchungsfälle vorliegt (Lamnek 2010, S. 236). Deshalb hat diese Forschungstradition spezifische Probleme bei der Generalisierung der Ergebnisse
Quantitative Sozialforscherinnen orientieren sich bei der Fallauswahl häufig an der Zufallsstichprobe (Kapitel 10). Auf Grundlage der Inferenzstatistik 3 können die Befunde von Zufallsstichproben innerhalb bestimmter Fehlergrenzen auf die Grundgesamtheit übertragen werden.
Ein zentrales Anliegen der Sozialwissenschaften ist die Erklärung sozialer Sachverhalte. Zwei
Grundmodelle allgemeiner Erklärungen werden an dieser Stelle unterschieden: Das deduktiv-no-
mologische Modell von Hempel und Oppenheim (1948) und das induktiv-statistische Modell
Deduktiv-Nomologisches-Modell
Als Grundmodell einer Erklärung gilt in der quantitativen Sozialforschung das
deduktiv-nomologische Erklärungsmodell, das Hempel und Oppenheim (1948) im Anschluss an die Arbeiten von Popper (1982 [1934]) entwickelt haben. Das
D-N-Modell (nach deduktiv-nomologisch) oder auch H-O-Modell (nach Hempel-Oppenheim) besteht aus zwei Elementen: Explanandum und Explanans.
Das Explanandum (übersetzt: „das zu Erklärende“) ist das zu erklärende Phänomen. Nach Esser
(1999b, S. 40) beginnt jede Erklärung mit einer Aussage, die den zu erklärenden Sachverhalt korrekt beschreibt. Eine solche Aussage enthält meist zeitlich-räumliche Angaben über das Auftreten des Sachverhalts (z.B. in Deutschland ist die Beteiligung bei Bundestagswahlen von 1998 bis 2009 gesunken). Eine korrekte Aussage über einen Sachverhalt, dessen Auftreten erklärt werden soll, wird Explanandum genannt.
Die Erklärung des Explanandums erfolgt über allgemeine Gesetze (auch Allaussagen genannt) und Randbedingungen (auch Antecedensbedingungen genannt). Gesetz und Randbedingung werden Explanans (übersetzt: „das Erklärende“) genannt.
Das allgemeine Gesetz benennt eine Beziehung zwischen zwei Sachverhalten und ist als Allaus-
sage formuliert. Das heißt, die Beziehung ist an allen Orten und zu allen Zeiten gültig. Die Rand-
bedingungen beziehen sich dagegen auf eine konkrete räumlich-zeitliche Situation. Nach dem D-N-Modell erfolgt eine korrekte Erklärung über eine logische Deduktion (Ableitung) aus einem allgemeingültigen Gesetz und der Kontrolle des Vorliegens der Randbedingung
—> Eine D-N-Erklärung besteht aus zwei Arten von Sätzen, die erst gemeinsam eine Erklärung
liefern: Allgemeine Sätze (Gesetze) und besondere Sätze (Randbedingungen), die nur für die konkrete Situation gelten. Aus den allgemeinen Sätzen wird mit Hilfe der Randbedingungen das Explanandum deduziert (bzw. abgeleitet).
Beispiel: Erklärt wird, warum ein konkreter Faden reißt (Explanandum). Als Explanans werden ein allgemeines Gesetz und Randbedingungen formuliert. Das Gesetz beinhaltet eine Wenn-Dann-Komponente („Wenn ein Faden mit einer Last von einer gewissen Mindestgröße belastet wird, dann reißt er“) und ist allgemein formuliert. Das Gesetz ist zeitlich-räumlich nicht eingeschränkt. Das allgemeine Gesetz wird durch zwei Randbedingungen ergänzt. Erstens beträgt die maximale Belastungsgröße für den vorliegenden Faden ein Kilogramm
und zweitens beträgt das angehängte Gewicht am Faden zwei Kilogramm. Falls die beiden Randbedingungen empirisch korrekt sind, dann reißt der Faden.
Während das Gesetz zeitlich-räumlich unbeschränkten Geltungsanspruch erfordert, beziehen sich die Randbedingungen auf eine konkrete Situation. Die Randbedingungen bezeichnen einzelne Faktoren, die sich auf die Wenn-Komponente beziehen. Sind die Bedingungen erfüllt und das
Gesetz korrekt, dann ist das Explanandum zu beobachten.
Hempel und Oppenheim (1948, S. 137-140) nennen vier Voraussetzungen (Adäquatheitsbedingungen), die bei einer angemessenen Erklärung erfüllt sein müssen: Erstens muss das Explanandum logisch korrekt aus dem Explanans abgeleitet werden. Zweitens muss das Explanans ein Gesetz enthalten. Drittens muss das Explanans wahr sein. Viertens muss das Explanans empirischen
Gehalt besitzen, das heißt Gesetz und Randbedingungen müssen empirisch überprüfbar sein. Esser (1999b, S. 43) erweitert diese Liste um eine weitere Voraussetzung: Das Explanandum muss empirisch wahr sein.
Induktiv-Statistisches-Modell
Eine deduktiv-nomologische Erklärung setzt ein allgemeingültiges Gesetz voraus, das zeitlich und räumlich nicht eingeschränkt ist (Allaussage). Allerdings
sind in den Sozialwissenschaften solche Gesetze (bisher) nicht bekannt. Deshalb wird in den Sozialwissenschaften eine modifizierte Version der klassischen D-N-Erklärung genutzt, in der nicht von strikten Gesetzen, sondern nur von Wahrscheinlichkeiten gesprochen wird (Hempel 1977, S. 55-123). Dieses Modell wird induktiv-statistische (I-S-Modell) oder probabilistische Erklärung genannt.
Die Elemente einer I-S-Erklärung sind mit den Komponenten einer D-N-Erklärung vergleichbar, jedoch wird statt eines allgemeingültigen Gesetzes ein probabilistisches Gesetz verwendet. Der Unterschied zum D-N-Modell besteht nun darin, dass das Explanandum nicht deduktiv abgeleitet werden kann, sondern nur mit annähernder oder mit großer Wahrscheinlichkeit vorhergesagt wird, da im Gegensatz zu deduktiven Ableitungen im Fall einer I-S-Erklärung das Explanandum auch bei wahrem Explanans falsch sein kann.
In Tabelle 6 wird die allgemeine Struktur einer I-S-Erklärung dargestellt und an einem Beispiel aus der Wahlforschung illustriert. Im Beispiel ist das probabilistische Gesetz die Aussage, dass Bürger, die sich sehr für Politik interessieren, sehr wahrscheinlich auch wählen gehen. Aus diesem probabilistischen Gesetz kann das Verhalten von Max Mustermann, der sich sehr für Politik interessiert, aber nicht deduziert werden. Man kann zwar vermuten, dass Max Mustermann sich an Wahlen beteiligt, aber das statistische Gesetz lässt auch die Möglichkeit zu, dass er sich nicht an Wahlen beteiligt. Je höher die Wahrscheinlichkeit des probabilistischen Gesetzes ist, desto wahrscheinlicher ist zwar das Explanandum, aber es ist weder logisch ableitbar noch mit Sicherheit prognostizierbar (Hempel 1977, S. 70).
Im Vergleich zu D-N-Erklärungen weisen I-S-Erklärungen deutliche Mängel auf, da das Explanandum nicht aus dem (allgemeingültigen) Gesetz und den Randbedingungen abgeleitet werden kann. Statt von I-S-Erklärungen wird in der Literatur daher häufig von I-S-Begründungen gesprochen
Die Wissenschaftstheorie beschäftigt sich […] mit der Logik des Forschens, sie arbeitet die Spielregeln aus, an welchen sich Personen zu orientieren haben, die wissenschaftlich tätig sind. Die Wissenschaftstheorie geht damit über das einfache Festlegen
von Rezepten für das Handeln hinaus: sie begründet diese Regeln auch. Sie sagt nicht
nur, auf welche Art und Weise wissenschaftlich geforscht werden soll, sondern auch,
weshalb dies so am besten zu erfolgen hat.
Es gibt nicht eine – allgemein akzeptierte – Wissenschaftstheorie, sondern viele Wissenschaftstheorien (z.B. Induktivismus, Positivismus, Konstruktivismus). Die (quantitative) Sozialforschung orientiert sich am kritischen Rationalismus, eine von Karl Popper (1969, 1982 [1934]) begründete Wissenschaftstheorie. Viele methodische Prinzipien und Vorgehensweisen der quantitativen Sozialforschung sind mit der wissenschaftstheoretischen Position von Popper verknüpft. In der Forschungspraxis werden diese allgemein formulierten Prinzipien häufig nicht (mehr) hinterfragt bzw. thematisiert; sie fungieren vielmehr als Postulat für eine bestimmte methodische Denk- und Vorgehensweise.
Die Wissenschaftstheorie formuliert allgemeine Regeln, wie das wissenschaftliche „Spiel“ der Beschreibung, Erklärung und Prognose empirischer Sachverhalte funktioniert. Eine bestimmte Wissenschaftstheorie entspricht etwa der Verfassung eines Landes, die grundlegende Prinzipien der Staatsorganisation
festschreibt. Sie steckt den Rahmen ab, in dem die Akteure handeln können. Die wissenschaftstheoretischen Prinzipien bilden die Grundlage für die methodische Vorgehensweise bei der Untersuchung der inhaltlichen Fragestellungen. Auf Basis dieser Prinzipien werden Hypothesen und Theorien entwickelt, die empirisch überprüft werden.
Mit Blick auf die quantitative Sozialforschung formuliert der kritische Rationalismus zwei zentrale Prinzipien: das Falsifikationsprinzip und das Basissatzproblem.
Falsifikationsprinzip
Die Beschreibung und die Erklärung sozialer Sachverhalte ist ein zentrales Ziel empirischer Sozialforschung. Ein zentrales Prinzip des kritischen Rationalismus fordert, dass solche Beschreibungen und Erklärungen (im Folgenden: Aussagen) grundsätzlich an
der Realität überprüfbar sein müssen und prinzipiell auch scheitern können (also evtl. nicht korrekt sind).
Aussagen wie „Wenn der Hahn kräht auf dem Mist, ändert sich das Wetter oder es bleibt, wie es ist“ lehnt ein Anhänger des kritischen Rationalismus ab, da es sich um eine sogenannte analytische Aussage handelt (Tautologie). Der Satz ist immer wahr, da er alle Möglichkeiten einschließt, die jemals eintreten können. Deshalb kann ein solcher Satz nicht an der Realität scheitern. Auch müssen die Begriffe, die in Aussagen verwendet werden, einen empirischen Bezug haben. Aussagen
wie „Der Fußballgott muss ein Münchner sein“ oder „Gute Menschen kommen in den Himmel“
haben keinen empirischen Gehalt, da die verwendeten Begriffe „Fußballgott“ und „Himmel“ sich nicht auf die erfahrbare Realität beziehen
Popper (1982 [1934], S. 3-6) vertritt im kritischen Rationalismus zudem den Standpunkt, dass die endgültige Bestätigung von Aussagen (Verifikation) nicht möglich ist. Ein Beispiel: Die Aussage „Alle Raben sind schwarz“ kann nicht endgültig bestätigt werden, da niemals die Federnfarben
aller Raben der Vergangenheit, Gegenwart und Zukunft untersucht werden können. Allerdings
kann die Aussage falsifiziert (widerlegt) werden. Dazu muss „nur“ ein weißer (oder auch gelber) Rabe beobachtet werden. Gemäß dieser Argumentation haben auch bestätigte Aussagen nur einen vorläufigen Charakter. Aussagen, die auch wiederholten und verschärften empirischen Prüfungen standgehalten haben, gelten als bewährte Aussagen (Gesetze). Da allerdings die endgültige Verifikation von Aussagen nicht möglich ist, steht im kritischen Rationalismus die Falsifikation von Aussagen im Vordergrund
Basissatzproblem
Die in einem Forschungsprojekt formulierten Aussagen werden überprüft und
müssen grundsätzlich an der Realität scheitern können. Eine Aussage, die der
Überprüfung nicht standhält, ist widerlegt (falsifiziert). Die Falsifikation (Widerlegung) einer Aussage ist allerdings mit einem Problem konfrontiert, das Popper als Basissatzproblem bezeichnet hat (Popper 1982 [1934], S. 60-76). Danach kann eine Aussage nicht direkt durch Beobachtungen geprüft werden, sondern nur anhand einer Aussage über eine Beobachtung. Diese Beobachtungsaussage kann allerdings fehlerhaft sein. Zur Lösung des Basissatzproblems schlägt Popper vor, die Beobachtungssätze durch Beschluss anzuerkennen und von ihrer vorläufigen Gültigkeit auszugehen
Diese Festsetzungen sind allerdings keine individuelle oder gar willkürliche Angelegenheit. Basissätze müssen sich nach Esser et al. (1977, S. 149) auf intersubjektiv beobachtbare Sachverhalte beziehen, dürfen nicht mit bereits anerkannten Basissätzen in Widerspruch stehen und müssen
unter Berücksichtigung des gegenwärtig höchstmöglichen methodischen Wissens einer wissenschaftlichen Disziplin formuliert werden
—> Aus dem kritischen Rationalismus leiten sich allgemeine Prinzipien für die Formulierung von Theorien und die Vorgehensweise bei der Untersuchung empirischer Fragestellungen ab. Zwei zentrale Grundsätze sind die intersubjektive Nachvollziehbarkeit und das Falsifikationsprinzip. Diese bilden das Fundament für die quantitative Sozialforschung.
Forschungsfrage: Das Thema eines Forschungsprojekts grenzt zwar den Inhalt des Projekts lose ab, es schränkt das Projekt aber noch nicht hinreichend ein (Plümper 2012, S. 16). In Auseinandersetzung mit der Fachliteratur – dem Stand der Forschung zu einem Thema – ist die Entwicklung einer Forschungsfrage erforderlich. Bei einer Haus- oder Abschlussarbeit ist eine Forschungsfrage ausreichend, bei mehrjährigen Forschungs-
projekten (z.B. Promotionen) werden ggf. mehrere Forschungsfragen formuliert. Häufig wird die Forschungsfrage noch in Teilfragen aufgeteilt, um das Projekt klarer strukturieren zu können. Die Bearbeitung einzelner Teilfragen zielt schließlich darauf ab, die Forschungsfrage zu beantworten.
Konzeptspezifikation: Ist die Forschungsfrage (in einer ersten Version) formuliert, dann müssen die verwendeten Konzepte und Begriffe geklärt werden. Viele Sozialwissenschaftler beschäftigen sich mit schillernden Begriffen wie Legitimität, Identität, Sozialkapital, Vertrauen oder auch Demokratie, die höchst unterschiedlich definiert und verstanden werden. Oft handelt es sich aber auch um Alltagsbegriffe, die erst in die sozialwissenschaftliche Forschungssprache
übersetzt werden müssen. Begriffe wie Politikverdrossenheit oder Wutbürger sind keine sozialwissenschaftlichen Konzepte, sondern wurden vielmehr von Journalisten erfunden. Selbstverständlich werden diese Phänomene auch in den Sozialwissenschaften empirisch untersucht, doch müssen solche Begriffe zunächst spezifiziert werden. Die Phase, in der solche Begriffe theoretisch geklärt werden, wird als Konzeptspezifikation bezeichnet
Hypothesen: Sozialwissenschaftlicher Forschungsprozess ist insbesondere an Ursache-Wirkungs-Beziehungen interessiert. Diese vermuteten Ursache-Wirkungs-Beziehungen werden in Hypothesen formuliert. Im sozialwissenschaftlichen Kontext handelt es sich bei Hypothesen um eine begründete und theoriegeleitete Vermutung zwischen mindestens zwei Sachverhalten, die empirisch überprüft wird. Eine zentrale Anforderung an Hypothesen ist daher, dass sie an der Erfahrung (der Realität) scheitern können.
Operationalisierung: Viele theoretische Begriffe in den Sozialwissenschaften, wie beispielsweise „Legitimität“, „Vertrauen“ oder „Soziale Schicht“, lassen sich in der Regel nicht
direkt beobachten. In einem empirischen Forschungsprojekt müssen diesen theoretischen Begriffen deshalb beobachtbare Sachverhalte zugeordnet werden. Die Zuordnung von einem oder mehreren beobachtbaren Indikatoren zu einem theoretischen Begriff wird als Operationalisierung bezeichnet (Kasten 4 in Abbildung 4). Die theoretischen Konstrukte werden in einem empirischen Forschungsprozess durch Indikatoren repräsentiert. Ein Indikator ist ein beobachtbarer Sachverhalt, der einen theoretischen Begriff in die Realität „übersetzt“.
Auseinandersetzung mit Fachliteratur: Die Arbeitsschritte Konzeptspezifikation, Hypothesenbildung und Operationalisierung erfolgen in intensiver Auseinandersetzung mit der Fachliteratur. Zu vielen theoretischen Begriffen existieren bereits Konzeptspezifikationen und Operationalisierungsvorschläge. Im Studium ist es nicht das Ziel, eigene Konzeptspezifikationen oder Vorschläge zur
Operationalisierung zu entwickeln. Vielmehr muss sich der Forschende zunächst mit den verschiedenen existierenden Vorschlägen intensiv auseinandersetzen und begründen, warum die gewählte Konzeptspezifikation oder Operationalisierung für die eigene Forschungsfrage geeignet ist. Für die Arbeitsschritte Konzeptspezifikation, Hypothesenbildung und Operationalisierung ist
deshalb ein zeitintensives Literaturstudium erforderlich.
Primär- und Sekundäranalyse: Der praktische Teil eines Forschungsprojekts beginnt mit der Frage, ob für das eigene Forschungsprojekt bereits adäquate Daten zur Verfügung stehen, die für eine angemessene Operationalisierung der theoretischen Begriffe und die empirische Überprüfung der formulierten Hypothesen genutzt werden können. Falls ja, dann entfallen die Phasen Forschungsdesign, Auswahlverfahren und Datenerhebung und der Forscher kann eine Sekundäranalyse durchführen. Bei einer Sekundäranalyse nutzt der Forscher vorhandenes Datenmaterial, um seine Forschungsfrage zu beantworten. Da insbesondere die Entwicklung eines Forschungsdesigns und die Datenerhebung mit einem erheblichen Zeit- und Geldaufwand verbunden sind, ist eine Sekundäranalyse „in akademischen Kontexten eher die Regel als die Ausnahme“
Forschungsdesign: Das Forschungsdesign beinhaltet Entscheidungen über das Vorgehen bei der Bearbeitung der Forschungsfrage. In Abhängigkeit von der Forschungsfrage sowie der Konzeptspezifikation, der Hypothesenbildung und der Operationalisierung stellt sich erstens die Frage nach der Untersuchungsebene. Sollen Zusammenhänge
auf der gesellschaftlichen Ebene (Makro) oder auf der Individualebene (Mikro) untersucht werden? Zu der Festlegung des Forschungsdesigns gehört zweitens auch die Entscheidung, ob man ein Experiment (Labor-, Feld- oder Quasiexperiment) oder ein nicht-experimentelles Vorgehen (Querschnitt-, Trend- oder Paneldesign) wählt. Eine dritte Entscheidung bezieht sich auf den zeitlichen Aspekt der Datenerhebung: Sollen Daten zu einem oder mehreren Zeitpunkten gesammelt werden? Die Antworten auf die einzelnen Fragen sind einerseits immer abhängig von der konkreten Fragestellung des Forschungsprojekts, andererseits aber auch von den zur Verfügung stehenden Ressourcen (z.B. Zeit und Geld).
Auswahlverfahren: Über wen oder was sollen Aussagen gemacht werden? Diese Frage steht bei der Festlegung des Auswahlverfahrens im Mittelpunkt. Bei der Festlegung des Auswahlverfahrens muss zunächst geklärt werden, ob alle Elemente (z.B. alle Personen), über die eine Aussage gemacht werden soll, untersucht werden oder nur eine Teilmenge dieser Elemente. Aus zeitlichen, finanziellen und forschungspraktischen Gründen do-
minieren in den Sozialwissenschaften Teilerhebungen. Bei der Teilerhebung kann dann wieder zwischen zufälligen und nichtzufälligen Auswahlverfahren unterschieden werden.
Datenerhebung: Die vermutlich bekannteste Phase eines sozialwissenschaftlichen Forschungsprozesses ist die Datenerhebung (Kasten 8 in Abbildung 4). In den Sozialwis-
senschaften existieren zahlreiche Datenerhebungsmethoden, unter anderem Befragung, Beobachtung und Inhaltsanalyse. Die einzelnen Verfahren lassen sich wieder in mehrere Varianten einteilen (z.B. die Befragung in persönliche, telefonische, schriftliche und internetgestützte Befragung).
Datenaufbereitung und -analyse: Die in der Phase der Datenerhebung gesammelten Informationen müssen strukturiert aufbereitet und gespeichert werden. Dazu gehört auch eine umfangreiche Datenbereinigung, bei der Erfassungs- und Übertragungsfehler gesucht und korrigiert werden. Für die Datenanalyse steht mittlerweile eine Vielzahl an Auswertungstechniken zur Verfügung. Die Entscheidung für ein konkretes Analyseverfahren ist dabei von der Forschungsfrage und dem zur Verfügung stehenden Datenmaterial abhängig.
Publikation: Damit die Ergebnisse eines Forschungsprojekts anderen Wissenschaftlern bekannt werden, müssen die Ergebnisse publiziert werden. Nur eine veröffentlichte Studie kann zum wissenschaftlichen Fortschritt beitragen (Schnell et al. 2018, S. 9). Die Publikation geschieht einerseits durch einen – meist öffentlich nicht zugänglichen und wissenschaftlich daher zu vernachlässigenden – Abschlussbericht und andererseits durch die Veröffentlichungen von Büchern und Zeitschriftenaufsätzen.
Ein Forschungsprojekt beginnt mit der Festlegung des Gegenstands der Forschung, dem sogenannten Forschungsthema. Das Forschungsthema stellt aber nur den groben Rahmen eines Forschungsprojekts dar und bildet nur die Grundlage für die Entwicklung einer Forschungsfrage.
Da das Thema den Forschungsgegenstand nur lose abgrenzt, empfiehlt Plümper (2012, S. 16) das gewählte Thema mit zwei oder drei Kernbegriffen zu beschreiben. „Wahlbeteiligung auf lokaler Ebene“ beschreibt das Thema deutlich besser als „Wahlforschung“
Ein Forschungsprojekt beginnt mit der Auseinandersetzung mit der existierenden Fachliteratur zum Forschungsthema. Nur wer die zentralen theoretischen Ansätze und empirischen Befunde kennt, kann Probleme im Wissensstand identifizieren und neue Forschungsfragen formulieren. Um sich einen (ersten) Überblick zum Forschungsstand zu verschaffen, sind nach Plümper (2012, S. 16) die 30 bis 40 wichtigen Artikel und die drei bis acht relevanten Bücher zu lesen.
Nach Westle (2018a, S. 149) sollten die Klassiker sowie die aktuelle Literatur der vergangenen zehn Jahre zur Thematik bekannt sein
Vom Forschungsthema zur Forschungsfrage
Eine gründliche Sichtung der vorhandenen theoretischen Ansätze und empirischen Ergebnisse des Forschungsthemas stellt deshalb die Ausgangsbasis für ein Forschungsvorhaben dar . Ein solcher Überblick („state-of-the-art“) steht am Anfang eines Forschungsprojekts und spielt auch bei Forschungsanträgen eine zentrale Rolle. Im Leitfaden der Deutschen Forschungsgemeinschaft (2014, S. 3) heißt es:
„Legen Sie bei Neuanträgen den Stand der Forschung bitte knapp und präzise in sei-
ner unmittelbaren Beziehung zum konkreten Vorhaben dar. In dieser Darstellung
sollte deutlich werden, wo Sie Ihre eigenen Arbeiten eingeordnet sehen und zu wel-
chen der anstehenden Fragen Sie einen eigenen, neuen und weiterführenden Beitrag
leisten wollen. Die Darstellung muss ohne Hinzuziehen weiterer Literatur verständlich
sein.“
Der Forschungsstand zu einem Thema stellt den Ausgangspunkt eines Forschungsprojekts dar und wird in einem Literaturbericht präsentiert. Eine solche Literaturübersicht soll dabei den Forschungsstand strukturieren und verdichtet präsentieren. Dieser Literaturbericht kann einerseits ein Bestandteil einer größeren Arbeit (z.B. innerhalb von Qualifikationsarbeiten) oder andererseits eine eigenständige Übersicht zu einem bestimmten Thema sein. Innerhalb einer größeren Arbeit wird der Literaturbericht meist in einem eigenen Kapitel oder als Unterkapitel präsentiert (z.B. Stand der Forschung), gelegentlich werden Forschungsstand und Hypothesenformulierung auch verknüpft
Nach Bryman lassen sich allgemein zwei Arten von Literaturübersichten unterscheiden: narrative review (traditionelle Literaturübersicht) und systematic review (systematische Literaturübersicht).
Die traditionelle Literaturübersicht bietet einen breiten Überblick zu einem bestimmten Forschungsthema. Der Forschungsstand wird in einer komprimierten und übersichtlichen Darstellung präsentiert sowie Gemeinsamkeiten und Unterschiede der berücksichtigen Texte aufgezeigt (z.B. Unterschiede in der Operationalisierung, widersprüchliche empirische Ergebnisse). Diese Form der Literaturübersicht wird häufig genutzt, um eine Forschungslücke zu identifizieren und die eigene Forschung einzuordnen. Allerdings basiert die traditionelle Literaturübersicht in der Regel auf einer selektiven Literaturauswahl.
Bei einer systematischen Literaturübersicht werden möglichst alle publizierten Texte zu einem bestimmten Thema berücksichtigt. Dabei werden vor der Literaturrecherche bestimmte Kriterien definiert, um wissenschaftliche Texte ein- oder auszuschließen. Diese Kriterien werden offengelegt und auch die Wahl der Literaturdatenbanken sowie der Suchbegriffe werden offen kommuniziert. Dadurch ist intersubjektiv nachvollziehbar, welche Literatur berücksichtigt wird oder nicht.
Kriterien für die Literaturbewertung: Zitierfähigkeit, Zitierwürdigkeit und Relevanz
Zitierfähigkeit bezieht sich auf die allgemeine Zugänglichkeit des Textes. Ein zentrales Kriterium von Wissenschaftlichkeit ist die intersubjektive Nachvollziehbarkeit. Dies setzt voraus, dass alle verwendeten Quellen auch anderen Forschern zugänglich sind. Bei Büchern und Fachaufsätzen ist die Zitierfähigkeit gegeben, bei grauer Literatur (z.B. Kurse der FernUniversität) ist die Zitierfähigkeit zumindest eingeschränkt.
Zitierwürdigkeit bezieht sich auf die wissenschaftliche Qualität eines Textes. Die Zitierwürdigkeit hängt sicherlich von der Güte des spezifischen Textes ab, doch in Anlehnung an Ebster und Stalzer (2017, S. 67) gibt es generelle Kriterien für die Bewertung der Zitierwürdigkeit. Bei wissenschaftlichen Qualifikationsarbeiten (Promotionen und Habilitationen) kann die Zitierwürdigkeit in der Regel vorausgesetzt werden. Dies gilt auch für Veröffentlichungen mit Qualitätssicherung (z.B. Peer-Review-Verfahren). Bei Veröffentlichungen ohne Literaturverzeichnis bzw. ohne Quellenangaben (z.B. sogenannte Praktikerbücher) ist die Zitierwürdigkeit in der Regel nicht gegeben.
Schließlich muss die Quelle auch relevant sein, d.h. sie muss einen Bezug zum Forschungsthema bzw. Forschungsfrage aufweisen. Wer sich mit der Wahlbeteiligung bei Europawahlen beschäftigt, der benötigt Literatur zur Europawahl und nicht etwa zur Fraktionsgeschlossenheit bei lokalen Parlamenten.
Erst, wenn Sie eine ungefähre Vorstellung Ihrer Forschungsfrage haben, können Sie mit einer systematischen Literaturrecherche beginnen. Als systematische Suche bezeichnen Stykow et al. (2010, S. 202), „wenn man alle verfügbaren Bibliotheks- und elektronischen Recherchemittel konsequent verwendet, um sämtliche Erscheinungsformen wissenschaftlicher Information abzudecken.“ Mit anderen Worten: Es gibt nicht „ein“ Recherchemittel, sondern es müssen verschiedene Recherchemittel kombiniert werden, um die relevante Forschungsliteratur zu einem Thema zu identifizieren
Da Aufsätze in Fachzeitschriften mittlerweile eine herausgehobene Bedeutung in den Sozialwissenschaften haben, sollten Sie auch für Ihre Hausarbeit auf entsprechende Fachaufsätze zurückgreifen. Die entsprechende Recherche erfordert aber eine andere Recherchestrategie als die Suche nach Büchern: In den elektronischen Bibliothekskatalogen sind in der Regel die verfügbaren Fachzeitschriften, nicht aber die einzelnen Aufsätze verzeichnet (eine Ausnahme ist der Bibliothekskatalog des Deutschen Bundestags unter https://opac.bundestag.de. Sie könnten jetzt mühsam die einzelnen Inhaltsverzeichnisse der Fachzeitschriften durchgehen oder Sie nutzen Fachdatenbanken.
Fachdatenbanken extrahieren zentrale Informationen der Aufsätze wie Autor, Titel und Zeitschrift sowie eine kurze Zusammenfassung des Aufsatzes (Abstracts) in eine Datenbank. In den meisten Fachdatenbanken finden sich also nur die bibliographischen Angaben zu einem Aufsatz und nicht der komplette Text. Dies ist aber weitgehend unproblematisch, da sich bei den Angaben häufig ein Link zum Volltext finden. Das heißt, Sie können auf den Volltext zugreifen, sofern Ihre Universität die Fachzeitschrift abonniert hat. Eine Übersicht von Datenbanken der FernUniversität findet sich unter https://www.fernuni-hagen.de/bibliothek/recherche/datenbanken.shtml Unter den sozialwissenschaftlichen Fachdatenbanken nimmt der Social Science Citation Index (SSCI) eine herausragende Stellung ein
Journal STORage (JSTOR) ist eine gemeinnützige Organisation, die ein kostenpflichtiges Online-Archiv mit älteren Ausgaben ausgewählter Fachzeitschriften unterhält. In JSTOR finden Sie also keine aktuellen Ausgaben von Fachzeitschriften, sondern ältere Exemplare. Dafür umfasst JSTOR nicht nur eine, sondern etwa 150 politikwissenschaftliche Fachzeitschriften. Seit einiger Zeit bietet JSTOR auch Bücher an. Es wird eine „Basic Search“ und eine „Advanced Search“ angeboten. Die Benutzersprache ist Englisch. Weitere Informationen finden sich unter https://e.feu.de/jstor
Ein Rechercheportal für statistische Daten ist der kommerzielle Anbieter Statista (https://e.feu.de/statista). Darüber hinaus sind die statistischen Landesämter und das Statistische Bundesamt die führenden Anbieter von statistischen Informationen in Deutschland. Europäische Statistiken finden sich bei Eurostat oder der OECD. Auch die Weltbank bietet ein großes Angebot an Daten.
Eine Forschungsfrage sollte das Forschungsprojekt klar eingrenzen, ein Problem bearbeiten und als Frage formuliert sein. Darüber hinaus sollte eine Forschungsfrage aber auch relevant sein
Zwei Dimensionen von Relevanz: Die theoretische Relevanz bezieht sich auf den Beitrag des Projekts zum wissenschaftlichen Diskurs. Kann das Forschungsprojekt dazu beitragen, „den Grundstock wissenschaftlicher Erkenntnisse über soziale Phänomene zu erweitern“ oder zumindest die Voraussetzungen dafür schaffen, „indem Daten gesammelt, Theorien überprüft, Kausalitätsmechanismen nachgewiesen, Prozesse beobachtet oder wissenschaftliche Methoden verbessert werden“ (Schwarzer 2001, S. 142)? Mit anderen Worten: Leistet das Projekt einen Beitrag für die Fachwelt? Gesellschaftliche Relevanz bezieht sich dagegen auf die Bedeutung des Forschungsprojekts für die „reale Welt“. Das Thema bzw. die Erkenntnisse eines Forschungsprojekts tragen dazu bei, dass Ereignisse und Phänomene besser verstanden werden.
Konkrete Vorschläge zur Förderung der theoretischen Relevanz eines Forschungsprojekts sind (siehe Lehnert et al. 2007, S. 43):
Die empirische Prüfung bisher nicht überprüfter Hypothesen. Dadurch kann zum einen das empirische Wissen zu sozialen Phänomenen verbessert und zum anderen können unbestätigte Hypothesen verworfen und ein weitergehendes theoretisches Verständnis erreicht werden.
Inkonsistenzen einer Theorie aufdecken. Eine Forschungsfrage, die Inkonsistenzen einer Theorie diskutiert und möglicherweise auch beseitigt, indem im Rahmen des Forschungsprojekts die Theorie ergänzt und/oder überarbeitet wird, stellt einen theoretisch relevanten Beitrag dar.
Identifizierung empirischer Fälle, die von einer Theorie bisher nicht erklärt werden. Forschungsfragen, die „überraschende“ Fälle aufdecken und möglicherweise auch erklären, können dazu beitragen, dass Theorien verbessert werden.
Die Entwicklung klar spezifizierter Konzepte und/oder die Entwicklung valider Messinstrumente sind sowohl für die Theorieentwicklung als auch für die empirische Prüfung unverzichtbar. Sie tragen dazu bei, das analytische Instrumentarium in einem Fachgebiet zu erweitern.
Formulierungen von Alternativerklärungen, die entweder bestehende Ansätze verbinden oder alternative Mechanismen vorschlagen, die bisher nicht diskutiert und/oder getestet wurden.
Anwendung einer Theorie auf ein neues Feld. Wenn eine existierende Theorie auch Beobachtungen erklären kann, die zuvor noch nicht unter dieser theoretischen Perspektive betrachtet wurden, so trägt dies dazu bei, den Geltungsbereich einer Theorie zu verbessern.
Es reicht als Begründung nicht aus, dass irgendetwas bisher „noch nicht gemacht wurde“. Es kann durchaus gute Gründe dafür geben, dass das so ist. Vielmehr muss deutlich gemacht werden, warum es wichtig (und möglich) ist, die Hypothese zu überprüfen oder den Fall zu untersuchen.
Zur Förderung der gesellschaftlichen Relevanz formulieren Lehnert et al. drei aufeinander aufbauende Fragen, die jeder Wissenschaftler an die eigene Arbeit stellen kann, um die gesellschaftliche Relevanz stärker herauszuarbeiten.
Erstens: Wer ist betroffen? ( richtet den Blick auf die Personengruppe, die potenziell von dem untersuchten Gegenstand betroffen ist. Deshalb kann und sollte, nachdem die potenziell betroffenen Menschen identifiziert sind, eine Folgefrage gestellt werden: Wie wirkt sich der untersuchte Gegenstand auf die (potenziell) betroffenen Menschen aus? Zur Beantwortung dieser Frage müssen die kausalen Mechanismen identifiziert werden, die zwischen dem Sachverhalt und den Betroffenen wirken)
Zweitens: Wie lassen sich die Effekte bewerten? (Die zweite Frage „Wie lassen sich die Effekte bewerten?“ widmet sich den Konsequenzen eines Sachverhalts für die betroffene Personengruppe. Nach Lehnert et al. (2007, S. 50) sollte in einem Forschungsprojekt herausgearbeitet werden, „wie Menschen durch ein Phänomen betroffen sind und warum sie sich um diese Effekte kümmern sollten“. Die Ergebnisse könnten mit Blick auf ihre Legitimität, Stabilität oder Transparenz bewertet werden. Man sollte stets nach Beziehungen zwischen verschiedenen Maßstäben fragen und gegebenenfalls politische Phänomene und ihre Effekte anhand mehrerer, auch potenziell konfligierender Kriterien bewerten)
Drittens: Welche Ratschläge können erteilt werden? (Die dritte Frage „Welche Ratschläge können erteilt werden?“ schließt direkt an die Bewertung sozialer Phänomene an. Durch die Diskussion der praktischen Implikationen der Arbeit kann die gesellschaftliche Relevanz der Arbeit gefördert werden. „Allerdings gilt auch hier: Jede politische Empfehlung ist abhängig von den ihr zugrunde liegenden Bewertungsmaßstäben. Auf der Grundlage dieser Bewertungsmaßstäbe argumentieren wir dann für eine bestimmte Idee der ,guten Gesellschaft‘ oder des ,guten Regierens‘. Eine Antwort auf die Frage der guten Gesellschaft oder des guten Regierens muss gleichzeitig deutlich machen, welche Ziele sie als erstrebenswert, welche Begebenheiten sie als nicht wünschenswert ansieht, und wie wir die jeweiligen Ziele erreichen beziehungsweise die jeweiligen Begebenheiten verändern können.)
Bei der Formulierung von Forschungsfragen lassen sich zwei Grundformen unterscheiden: Deskriptive und erklärende Forschungsfragen. Die Beschreibung (Deskription) ist eine wichtige Aufgabe von Wissenschaft. In Forschungsfeldern, in denen noch wenig Wissen vorhanden ist, müssen zunächst Daten gesammelt und Beschreibungen geliefert werden, ehe Theorien formuliert und Hypothesen geprüft werden können
Die deskriptive Beschreibung von Wahlsystemen oder die gesetzlichen Bestimmungen zum Scheidungsrecht stellen allerdings nur das Basiswissen dar, das vorliegen muss, ehe interessantere Fragestellungen entwickelt werden können. Fragen wie „Welche Funktionen hat der Deutsche Bundestag?“ oder „Wie hat sich die Wahlbeteiligung entwickelt?“ eignen sich weder für Forschungsprojekte noch für Seminararbeiten. Sozialwissenschaftlerinnen sind vielmehr an Wirkungszusammenhängen interessiert: Warum hat das Wahlsystem einen Einfluss auf die Wahlbeteiligung? Warum hat das Scheidungsrisiko seit den 1950er Jahren zugenommen)? Warum gibt es so wenige Arbeiterkinder an Deutschlands Universitäten? Das sind erklärende Fragestellungen, die nach Zusammenhängen und kausalen Mechanismen fragen und nach Erklärungen für ein Phänomen suchen. Erklärende Fragestellungen gehen deshalb weit über die reine Beschreibung hinaus. Während deskriptive Fragestellungen meist Wie-Fragen sind (z.B. Wie funktioniert das Wahlsystem?), handelt es sich bei analytischen Fragestellungen häufig um Warum-Fragen (z.B. Warum unterscheidet sich die nationale Wahlbeteiligung zwischen den EU-Staaten)
Nur wer einen (ersten) Überblick des Forschungsstands hat, kann spannende Forschungsfragen entwickeln. Mit der „Identifizierung neuer Phänomene“, der „Theorienkonkurrenz“ und der „Identifizierung wissenschaftlicher Rätsel“ werden drei Strategien unterschieden
Identifizierung neuer Phänomene: Gesellschaftliche Umbrüche (z.B. Arabischer Frühling), technologische Neuerungen (z.B. Internet) oder wirtschaftlicher Wandel (z.B. Finanzkrise) können Ausgangspunkt für die Entwicklung einer Forschungsfrage sein. Eine Forschungsfrage kann dann zum einen darauf abzielen, das neue „Phänomen“ zu erklären, oder zum anderen die Auswirkungen des „Phänomens“ auf sozialwissenschaftliche Sachverhalte untersuchen
Theorienkonkurrenz: ür die Erklärung sozialer Phänomene gibt es häufig mehrere theoretische Ansätze. Einige Beispiele: In der Wahlforschung existieren mit dem makro-soziologischen, dem mikrosoziologischen, dem sozialpsychologischen und dem Rational-Choice-Ansatz vier theoretische Ansätze zur Erklärung des Wahlverhaltens. Für die Erklärung der kommunalen Identität unterscheidet Bühlmann (2013, S. 330) drei Erklärungsansätze: die Sozialisationshypothese, die Lebensqualitätshypothese sowie den Decline-of-Community-Ansatz. Eine solche Theorienkonkurrenz kann als Ausgangspunkt für die Entwicklung einer Forschungsfrage genutzt werden. Einerseits kann untersucht werden, welcher der theoretischen Ansätze das konkrete soziale Phänomen am besten erklären kann. Andererseits können sich solche Theorien auch widersprechen. Dann kann (und sollte) geprüft werden, welche Theorie sich in der Empirie bewährt und deshalb vorzuziehen ist.
Identifizierung wissenschaftlicher Rätsel: Eine der ertragreichsten Strategien für die Entwicklung einer Forschungsfrage besteht in der Suche nach wissenschaftlichen Rätseln. Ausgangspunkt ist eine – auf den ersten Blick – überraschende empirische Beobachtung. Dieser empirische Befund ist nicht mit unserem Alltagswissen und den klassischen Erklärungsansätzen vereinbar. Die Einordnung eines empirischen Befunds als „überraschend“ erfordert dabei umfangreiche Kenntnisse des Forschungsstands. Nur wer den Forschungsstand kennt, kann Widersprüche zwischen theoretischen Erwartungen und empirischen Befunden ausfindig machen. Im Rahmen des Forschungsprojekts soll dieser Widerspruch erklärt werden. Solche Erklärungen beginnen mit einer Warum-Frage (Esser 1999b, S. 31). Die Erklärung ist die Antwort auf die Frage. Das Ziel des Forschungsprojekts ist es, die Warum-Frage zu beantworten. Es müssen folglich Erklärungen identifiziert und/oder entwickelt werden, die den Widerspruch zwischen „Theorie“ und „Empirie“ auflösen.
Im Mittelpunkt einer Hausarbeit steht die systematische Auseinandersetzung mit der existierenden Fachliteratur. Existiert für eine Forschungsfrage noch keine ausreichende Literaturgrundlage, dann sollten Sie für die Hausarbeit eine andere Forschungsfrage suchen. Mit einer solchen Forschungsfrage können Sie sich ggf. in einer Abschlussarbeit oder im Rahmen einer Promotion beschäftigen.
Politikverdrossenheit, Vertrauen sowie politische Beteiligung – in den Sozialwissenschaften sind wir häufig mit Begriffen konfrontiert, die Bestandteil des alltäglichen und nichtwissenschaftlichen Sprachgebrauchs sind. Diese Begriffe sind allerdings oft unpräzise und es existiert kein einheitliches Begriffsverständnis. Deshalb müssen die verwendeten Begriffe eindeutig definiert und von anderen Begriffen abgegrenzt werden, ehe die mit diesen Begriffen bezeichneten Sachverhalte empirisch untersucht werden können. Diese Phase im Forschungsprozess wird als Konzeptspezifikation bezeichnet
Klar definierte Konzepte sind die Voraussetzung für die empirische Sozialforschung. Sie stellen die Basis für die Formulierung von gehaltvollen Hypothesen dar und sind Grundlage für eine valide Operationalisierung (Goertz 2006). Empirische Forschung, die auf unklaren Konzepten beruht, ist „zumindest verwirrend, sehr wahrscheinlich unproduktiv und definitiv nicht kumulativ“ . Deshalb müssen die in einem Forschungsprojekt verwendeten Begriffe definiert und von anderen Begriffen abgegrenzt werden.
Mit Gerring (2001, S. 39; siehe auch Wonka 2007, S. 64-65) lassen sich drei Elemente unterscheiden, die gemeinsam ein Konzept bilden: Term, Intension und Extension
Term ist die Bezeichnung eines Konzepts. Es handelt sich um ein sprachliches „Label“, das aus einem oder wenigen Wörtern besteht. In diesem Verständnis sind Politikverdrossenheit, Vertrauen oder auch Demokratie zunächst einmal Bezeichnungen für Konzepte, die in ihrer inhaltlichen Bedeutung noch nicht näher spezifiziert sind.
Die inhaltliche Bedeutung eines Konzepts wird durch Attribute (Eigenschaften) festgelegt. Ein Attribut beschreibt eine spezifische Eigenschaft eines Konzepts. Sie dienen der inhaltlichen Präzisierung, der „inneren Beschaffenheit“ (Westle 2018a, S. 151; Hervorhebung im Original), eines Konzepts. Folgt man Wonka (2007, S. 64), dann füllen Attribute die Bezeichnung eines Konzepts mit Substanz. Für die inhaltliche Präzisierung eines Konzepts sind in der Regel mehrere Attribute erforderlich. Alle Attribute bilden die Intension (Begriffsinhalt) eines Konzepts.Die Intension ist die Menge aller Attribute. Ein Objekt wird nur mit dem Begriff bezeichnet, wenn es alle Attribute erfüllt. Ein Beispiel: Mögliche Attribute für das Konzept „Auto“ (Label) könnten „Motor“, „Räder“ und „Türen“ sein. Die Attribute „Motor“, „Räder“ und „Türen“ bilden die Intension des Begriffs „Auto“. Ein (empirisches) Objekt, das diese Attribute besitzt, wird entsprechend als Auto bezeichnet.
Die Extension (Begriffsumfang) bezeichnet den empirischen Geltungsbereich eines Konzepts. Es handelt sich um die Gesamtheit der Objekte, die unter dieses Konzept fallen. Die Extension des Konzepts „Auto“ umfasst folglich alle Objekte, die die genannten Attribute – Motor, Räder und Türen – aufweisen. Damit besteht zwischen der Intension und der Extension ein inverses Verhältnis: Je größer die Intension, das heißt, je mehr Attribute zur inhaltlichen Präzisierung eines Konzepts genutzt werden, desto geringer die Anzahl der Objekte, die unter diesen Begriff fallen
Schnell et al. (2018, S. 112) begreifen die Konzeptspezifikation „als eine spezielle Art der Nominaldefinition“ . Deshalb existieren keine objektiven Kriterien, ob eine Spezifikation gelungen ist oder nicht. Es finden sich in der Literatur allerdings durchaus Vorschläge, um die Qualität einer Konzeptspezifikation zu bewerten. Gerring (2001, S. 40) unterscheidet mit Kohärenz, Operationalisierung, Validität, Nützlichkeit, Resonanz, Kontextgebundenheit, Sparsamkeit sowie analytischer und empirischer Brauchbarkeit insgesamt acht Kriterien. Kühne (2013, S. 26) unterscheidet zwischen Präzision, Eindeutigkeit und Adäquatheit. Die Anwendung dieser drei Kriterien geben nützliche Hinweise, ob die Konzeptspezifikation abgeschlossen ist und das spezifizierte Konzept als Grundlage für eine empirische Untersuchung genutzt werden kann
Präzision: Die Präzision bezieht sich auf den Grad der Genauigkeit, ob ein konkretes Objekt oder Ereignis zum empirischen Geltungsbereich des Konzepts gehört oder nicht. Bei einer hohen Präzision ist diese Feststellung unproblematisch. Bei einer geringen Präzision kann diese Feststellung bei vielen Objekten oder Ereignissen nicht getroffen werden. Je geringer die Präzision, desto größer sind die Schwierigkeiten, Objekte einem Konzept zuzuordnen
Die Eindeutigkeit bezieht sich auf die einheitliche Verwendung eines Konzepts bei verschiedenen Personen. Personen, die das Konzept kennen, verwenden das Konzept konsistent. Zudem wird die Zuordnung von Objekten oder Ereignissen zu einem Konzept von verschiedenen Personen geteilt.
Die Adäquatheit bezieht sich auf die Angemessenheit eines Konzepts. Dieses Kriterium bezieht sich auf das Verhältnis von Intension und Extension. Bei einer zu geringen Intension ist der empirische Geltungsbereich – die Objekte, die einem Konzept zugeordnet werden – zu groß, bei einer hohen Intension existieren nur wenige Untersuchungsobjekte. Adäquat ist eine Konzeptspezifikation, die die relevanten Objekte und Ereignisse umfasst.
Im Forschungsalltag lassen sich zwei typische Herausforderungen der Konzeptspezifikation unterscheiden. Erstens finden sich in der sozialwissenschaftlichen Fachliteratur viele Konzepte, die zwar den gleichen Begriff (Term) verwenden, aber eine unterschiedliche Bedeutung (Intension) haben. Zweitens ist die inhaltliche Bedeutung eines Konzepts häufig an spezifische räumliche und/oder zeitliche Kontexte gebunden, die sich ändern (können). Für die Anpassung an einen neuen Untersuchungsgegenstand kann eine Re-Spezifizierung des Konzepts erforderlich sein
Häufig sind sozialwissenschaftliche Konzepte an spezifische räumliche und/oder zeitliche Kontexte gebunden. Falls ein Konzept in einem anderen als dem ursprünglich vorgesehenen räumlichen oder zeitlichen Kontext angewendet wird, dann muss geprüft werden, ob die relevanten empirischen Untersuchungsobjekte von dem Konzept erfasst werden. „Wird ein Konzept auf einen veränderten Kontext angewendet, kann der ,Fit‘ zwischen den untersuchten Fällen und dem Originalkonzept verloren gehen. […] Erfolgt eine solche Anpassung nicht, werden Konzepte auf empirische Untersuchungsgegen angewendet, die von dem Konzept nicht erfasst werden können, weil die definierenden Attribute des Konzepts und die empirischen Eigenschaften des Untersuchungsgegenstands nicht korrespondieren. Hieraus könnte eine falsche analytische Erfassung der empirischen Untersuchungseinheiten resultieren. Sowohl die auf einer Grundlage gewonnenen deskriptiven als auch die kausalen Inferenzen wären fehlerhaft.“ (Wonka 2007, S. 68-69) Die Anpassung eines existierenden Konzepts an einen neuen Untersuchungsgegenstand wird Re-Spezifizierung genannt. Eine Möglichkeit der Re-Spezifizierung eines Konzepts ist die Veränderung der Anzahl seiner Attribute
1. Was sind die zentralen Konzepte? Im ersten Schritt sind die zentralen Konzepte eines gewählten Forschungsthemas bzw. einer konkreten Forschungsfrage zu identifizieren. Zentrale Konzepte sind in der Regel die abhängige und die unabhängigen Variablen. Wer die Determinanten des sozialen Vertrauens untersuchen möchte, der muss sich mit dem Konzept „Soziales Vertrauen“ auseinandersetzen. Für eine Arbeit zur Europäisierung muss das Konzept „Europäisierung“ spezifiziert werden
2. Welche Spezifikationen des Konzepts lassen sich in der Fachliteratur unterscheiden? Zu vielen sozialwissenschaftlichen Konzepten existieren bereits etablierte Spezifikationen. Dann ist es selbstverständlich sinnvoll, sich an entsprechend einschlägigen Konzepten der Fachdisziplin zu orientieren. Dies sichert den kumulativen Charakter wissenschaftlicher Forschung (Wonka 2007, S. 77). Die erfolgreiche Konzeptspezifikation setzt deshalb ebenfalls eine umfangreiche Auseinandersetzung mit der Fachliteratur voraus (für zentrale politikwissenschaftliche Konzepte siehe z.B. Berenskoetter 2016). Neben der Lektüre von einschlägigen Fachlexika und Handbüchern sind insbesondere Fachzeitschriften zu berücksichtigen, da diese heute das zentrale Kommunikationsmedium der Wissenschaft darstellen. Falls ein Konzept in unterschiedlichen theoretischen Zusammenhängen und variierender Bedeutung verwendet wird, dann ist das für die Forschungsfrage geeignetste Konzept auszuwählen. Diese Festlegung ist zu begründen. Warum ist die gewählte Konzeptspezifikation für das Forschungsthema bzw. die Forschungsfrage geeignet? Dabei ist die möglicherweise erforderliche Anpassung eines existierenden Konzepts an einen neuen Untersuchungsgegenstand zu prüfen
3. Welche Intension hat die ausgewählte Konzeptspezifikation? Das Beispiel „Sozialkapital“ zeigt: Trotz gleicher Bezeichnung (Term) unterscheidet sich die Bedeutung der Konzepte. Deshalb muss die Intension einer verwendeten Konzeptspezifikation ofengelegt werden. Die Attribute eines Konzepts sind klar und ausführlich darzustellen. Dies schafft die Voraussetzung, dass die „gemeinte“ Bedeutung des Konzepts von allen Personen erfasst und geteilt werden kann. Nur auf dieser Basis können Aussagen intersubjektiv nachvollzogen werden. Dies bildet die Voraussetzung für eine gehaltvolle wissenschaftliche Auseinandersetzung
4. Wie wird die Präzision, Eindeutigkeit und Adäquatheit des Konzepts bewertet? Zwar existieren keine objektiven Kriterien zur Bewertung einer Konzeptspezifikation, aber die Präzision, Eindeutigkeit und Adäquatheit bieten Hinweise zur Zweckmäßigkeit eines Konzepts. Diese Kriterien bieten Anhaltspunkte, ob die Phase der Konzeptspezifikation (zumindest vorläufig) abgeschlossen ist. Die Zweckmäßigkeit einer gewählten Konzeptspezifikation kann allerdings ausschließlich mit Blick auf eine konkrete Forschungsfrage bewertet werden
Im sozialwissenschaftlichen Kontext sind mit Hypothesen (begründete) Aussagen über den Zusammenhang von zwei Merkmalen gemeint. Sozialwissenschaftliche Hypothesen sind „Aussagen über Merkmalszusammenhänge“. Mit anderen Worten: Eine sozialwissenschaftliche Hypothese ist eine Aussage über einen Zusammenhang zwischen mindestens zwei Merkmalen (Diekmann 2011, S. 107). Danach können Aussagen wie „Je höher die Bildung, desto höher das Einkommen“ oder „Je höher der Anteil an Arbeitslosen, desto geringer die Wahlbeteiligung“ als sozialwissenschaftliche Hypothesen bezeichnet werden
Bortz und Döring (2006, S. 4) formulieren vier allgemeine Kriterien, die erfüllt sein müssen, damit eine Aussage als wissenschaftliche Hypothese bezeichnet werden kann: Erstens muss sich eine wissenschaftliche Hypothese auf reale Sachverhalte beziehen, die empirisch untersuchbar sind. Zweitens muss es sich um eine allgemeingültige – über den Einzelfall oder ein singuläres Ereignis hinausgehende – Aussage handeln. Drittens muss eine wissenschaftliche Hypothese zumindest implizit die Formalstruktur eines sinnvollen Konditionalsatzes (Wenn-dann oder Je-desto) aufweisen. Viertens muss eine Hypothese falsifizierbar sein
—>„Wissenschaftliche Hypothesen sind Annahmen über reale Sachverhalte (empirischer Gehalt, empirische Untersuchbarkeit) in Form von Konditionalsätzen. Sie weisen über den Einzelfall hinaus (Generalisierbarkeit, Allgemeinheitsgrad) und sind durch Erfahrungsdaten widerlegbar (Falsifizierbarkeit).“
Hypothesen können deterministisch oder probabilistisch (statistisch) sein. Deterministische Hypothesen werden vor allem in den Naturwissenschaften formuliert. Formal wird eine deterministische Hypothese ausgedrückt als „Wenn A, dann B“. Das Fallgesetz in der Physik wäre ein Beispiel für eine deterministische Hypothese. Unter spezifischen Bedingungen gilt das Fallgesetz in der Physik für alle Körper. In den Sozialwissenschaften sind deterministische Hypothesen eher die Ausnahme.
In den Sozialwissenschaften haben wir es mit „Untersuchungsobjekten“ zu tun, „die sich unter anderem durch hochgradige Individualität, Komplexität und durch Bewusstsein auszeichnen“. Deshalb werden in den Sozialwissenschaften in der Regel keine deterministischen, sondern probabilistische (statistische) Hypothesen formuliert. Bortz und Döring (2006, S. 10) sprechen in diesem Zusammenhang auch von Wahrscheinlichkeitsaussagen. Eine statistische Hypothese lässt sich wie folgt formulieren: Die Wahrscheinlichkeit von B ist bei Auftreten von A größer als die Wahrscheinlichkeit von B bei Auftreten von Nicht-A. Probabilistische Hypothesen können durch konträre Einzelfälle nicht widerlegt werden. Bei solchen Hypothesen wird ein vorhergesagter Merkmalswert (hier: Einkommen) nur mit einer gewissen Wahrscheinlichkeit auftreten. In den Sozialwissenschaften handelt es sich praktisch immer um probabilistische Hypothesen, weshalb auf den Zusatz probabilistisch oder statistisch in der Regel verzichtet wird
In der empirischen Sozialforschung werden Hypothesen, die untersucht werden, als Alternativhypothesen bezeichnet. Die Alternativhypothese beinhaltet die interessierende Aussage, zum Beispiel „Je höher die Bildung, desto höher das Einkommen“ oder „Je stärker das politische Interesse, desto wahrscheinlicher die Wahlbeteiligung“. Alternativhypothesen werden häufig auch mit H1 abgekürzt
Jeder Alternativhypothese lässt sich eine Nullhypothese gegenüberstellen. Die Nullhypothese verneint den in der Alternativhypothese formulierten Zusammenhang. Mit Blick auf die oben formulierten Alternativhypothesen sind die Aussagen „Zwischen Bildung und Einkommen besteht kein Zusammenhang“ und „Zwischen dem politischen Interesse und der Wahlbeteiligung besteht kein Zusammenhang“ die Nullhypothesen. Die Nullhypothese steht also im Widerspruch zur Alternativhypothese; sie wird mit H0 abgekürzt
H0 und H1 bilden damit ein Hypothesenpaar , das mögliche empirischen Zusammenhänge von zwei Merkmalen abbildet. In der Forschungspraxis wird allerdings lediglich die Alternativhypothese explizit formuliert, die dann gegen die Nullhypothese getestet wird. Das Vorgehen ist dabei konservativ. Nur, wenn wir uns sehr sicher sind, dass die Alternativhypothese zutrifft, wird die Alternativhypothese vorläufig angenommen und die Nullhypothese abgelehnt. Die Inferenzstatistik bietet Kriterien, um zu entscheiden, wann eine Alternativhypothese vorläufig angenommen oder abgelehnt wird.
Nach Bortz und Döring (2006, S. 4) müssen wissenschaftliche Hypothesen zumindest implizit die Formalstruktur eines sinnvollen Konditionalsatzes aufweisen. Mit Diekmann (2011, S. 125-133) lassen sich zwei Grundformen von Hypothesen unterscheiden: Wenn-dann-Hypothesen und Je-desto-Hypothesen.
Bei einer Wenn-dann-Hypothese haben die beiden Sachverhalte, zwischen denen ein Zusammenhang angenommen wird, nur zwei Ausprägungen. Es handelt sich um sogenannte dichotome Merkmale. Bei Bildung und Alter handelt es sich eigentlich um metrische Merkmale. Allerdings können metrische Merkmale (mit Informationsverlust) in dichotome Merkmale transformiert werden. Wir können beispielsweise bei Bildung zwischen niedriger und hoher Bildung unterscheiden, analog kann Einkommen in niedriges und hohes Einkommen klassifiziert werden. Eine mögliche Hypothese wäre: „Wenn Menschen eine hohe Bildung haben, dann haben sie ein hohes Einkommen.“ Die Wenn-Komponente wäre die unabhängige Variable (uV), die Dann-Komponente die abhängige Variable (aV). In unserem Beispiel ist Bildung die uV und das Einkommen die aV. Wenn-dann-Hypothesen werden formuliert, wenn uV und aV nur dichotom vorliegen. Typische Beispiele für dichotome Merkmale sind das Geschlecht (Frau/Mann) oder auch die Region (Ost/West).
Bei Bildung und Einkommen handelt es sich in der Regel nicht um dichotome Merkmale, sondern um Merkmale, die als Rangfolge interpretierbar sind. Das Bildungsniveau lässt sich relativ einfach in Bildungsjahren erfassen, und das Einkommen in Euro abbilden. Deshalb ist für die Formulierung eines Zusammenhangs zwischen Bildung und Einkommen die zweite Grundform von Hypothesen besser geeignet: Je-desto-Hypothesen. Bei einer Je-desto-Hypothese müssen die Ausprägungen der unabhängigen und abhängigen Variablen (mindestens) als Rangfolge interpretierbar sein. Dies ist bei Bildung und Einkommen (und vielen anderen Variablen) problemlos möglich. Deshalb bietet sich für unser Beispiel folgende Hypothese an: „Je höher die Bildung, desto höher das Einkommen” Die am häufigsten postulierten Zusammenhänge sind sicherlich positiv lineare bzw. negativ lineare Beziehungen. „Je höher die Bildung, desto größer das Einkommen“. Auch lassen sich U-förmige Zusammenhänge zwischen Merkmalen postulieren. Auch können die Zusammenhänge zwischen uV und aV exponentiell oder logarithmisch steigend (und natürlich auch exponentiell oder logarithmisch fallend).
Hypothesen formulieren Zusammenhänge zwischen Merkmalen. Diese Merkmale lassen sich analytischen Ebenen zuordnen. Die wichtigsten analytischen Ebenen sind die Mikro- und die Makroebene (siehe Abschnitt 2.4). Bei unserem Beispiel „Je größer die Bildung, desto höher das Einkommen“ lassen sich beide Merkmale der Mikroebene (Individualebene) zuordnen. Können beide Merkmale einer Hypothese der Individualebene zugeordnet werden, dann handelt es sich um eine Individualhypothese. Typische Merkmale auf der Individualebene sind Geschlecht, Alter, Bildung, Einkommen, Einstellungen oder Verhalten. „Je größer die Bildung, desto höher das Einkommen” ist eine klassische Individualhypothese. Bei Individualhypothesen stehen Zusammenhänge zwischen Individualmerkmalen im Blickpunkt. Die entsprechende Forschungsstrategie wird Individualdatenanalyse genannt. Bei einer Individualdatenanalyse werden – auf Basis theoretischer Überlegungen – mögliche erklärende Faktoren (uVs) gesucht, die die Unterschiede zwischen den Individuen erklären können.
Die Merkmale der Hypothese „Je größer der Anteil an Arbeitslosen, desto geringer die Wahlbeteiligung“ lassen sich dagegen nicht der Individualebene zuordnen. Es handelt sich um Merkmale der Makroebene (bzw. auch Systemebene oder gesellschaftliche Ebene). Unabhängig davon, ob Zusammenhänge auf nationaler, regionaler oder lokaler Ebene postuliert werden, werden solche Hypothesen allgemein Kollektivhypothesen genannt. Die Analyse von Zusammenhängen auf der Makroebene, also die empirische Prüfung von Kollektivhypothesen, stellt eine eigenständige Forschungsstrategie dar, die als Aggregatdatenanalyse bezeichnet wird. Die Vorteile dieser Analysestrategie sind offensichtlich: Die Daten sind meist schnell und kostengünstig verfügbar, es existieren (vermutlich) keine systematischen Erhebungsfehler und es besteht die Möglichkeit, langfristige Entwicklungsprozesse nachzuzeichnen. Allerdings ist die Aggregatdatenanalyse auch mit Problemen behaftet. Ein zentrales Problem ist der Schluss von der Makro- auf die Mikroebene (oder auch von der Aggregat- auf die Individualebene). Häufig werden empirische Zusammenhänge der Makroebene einfach auf die Mikroebene übertragen. Ein solcher Schluss liegt beispielsweise vor, wenn aus dem Ergebnis „Je höher die Arbeitslosenquote, desto geringer die Wahlbeteiligung“ gefolgert wird: Arbeitslose wählen seltener als Erwerbstätige. Ein solcher Schluss kann naheliegend, muss aber nicht korrekt sein. Ein falscher Schluss von der Kollektiv- auf die Individualebene wird als ökologischer Fehlschluss bezeichnet.
Neben Individual- und Kollektivhypothese existiert mit Kontexthypothesen ein dritter Hypothesentyp, der Makro- und Mikroebene verbindet. In Kontexthypothesen ist die unabhängige Variable der Makroebene zuzuordnen, die abhängige Variable der Individualebene. Für die empirische Forschung ist die Differenzierung zwischen Individual-, Kollektiv- und Kontexthypothesen zentral, da damit eigenständige Forschungsstrategien verbunden sind. Die empirische Prüfung von Kontexthypothesen stellt – wie die Individual- und Aggregatdatenanalyse – eine eigenständige Forschungsstrategie dar, die als Kontextanalyse bezeichnet wird. Häufig wird diese Forschungsstrategie auch Mehrebenenanalyse oder im englischen Multilevel Analysis genannt. Die zentrale Annahme der Kontextanalyse ist, dass individuelle Einstellungen und Verhaltensweisen nicht nur eine Folge von individuellen Merkmalen sind, sondern auch das Resultat der Einwirkung von kontextuellen Faktoren (Makrofaktoren).
—>Diese Annahme soll an einem Beispiel aus der Bildungsforschung illustriert werden. In unserem Beispiel wird ein Zusammenhang zwischen Klassengröße und Punktzahl in einem Test postuliert (Ziffer 2). Eine mögliche Kontexthypothese wäre: Je größer die Klasse (uV), desto geringer die Punktzahl in einem Test (aV). Die unabhängige Variable ist der Kontextebene (Makroebene) zuzuordnen, die abhängige Variable der Individualebene (Mikroebene). Theoretisch wäre ein solcher Zusammenhang durchaus plausibel. Schließlich steht einem Lehrer weniger Zeit pro Schüler zur Verfügung, je größer die Klasse ist. Bei einer Kontextanalyse wird allerdings nicht nur der Einfluss des Kontextmerkmals auf die abhängige Variable geschätzt, sondern auch der Effekt der individuellen Merkmale. —>Übertragen auf unser Beispiel: Der Einfluss des Interesses auf die Punktzahl in einem Test variiert in Abhängigkeit von der Klassengröße. Der Individualzusammenhang zwischen Interesse und Testergebnis könnte in einer kleinen Klasse stärker sein als in einer großen Klasse. In der Sprache der empirischen Sozialforschung werden solche Beziehungen als Cross-Level-Effekte bezeichnet. Das statistische Verfahren der Kontext- bzw. Mehrebenenanalyse basiert auf einer linearen Regression.
Um die theoretischen Konzepte in einem Forschungsprojekt empirisch messbar zu machen, werden die theoretischen Konzepte in beobachtbare Sachverhalte „übersetzt“. Dieser Vorgang wird Operationalisierung genannt. Hierfür werden sogenannte Indikatoren herangezogen. Ein beobachtbarer Sachverhalt, der ein theoretisches Konzept abbildet, wird Indikator genannt. Die Verknüpfung zwischen Konzept und Indikator erfolgt über sogenannte Korrespondenzregeln.
Die angemessene Operationalisierung eines theoretisch komplexen Konzepts ist mit Aufwand verbunden. Dabei sind zwei Schritte unbedingt erforderlich. Erstens setzt die Operationalisierung eines Konzepts eine abgeschlossene Konzeptspezifikation voraus. Schnell et al. betonen.
Zweitens setzt die Operationalisierung eines theoretischen Konzepts die Kenntnis einschlägiger Operationalisierungsvorschläge voraus. Auf dieser Basis können etablierte Vorschläge übernommen oder modifiziert werden. Dabei sind unterschiedliche – zum Teil auch widersprüchliche – Operationalisierungen des gleichen Konzepts in der Literatur eher die Regel als die Ausnahme. Deshalb ist die Wahl eines Indikators immer sorgfältig zu begründen
Beim Lesen empirischer Studien sollten Sie immer die jeweiligen Operationalisierungen der theoretischen Konzepte im Blick haben. Unterschiedliche, auch sich widersprechende empirische Befunde sind häufig auf verschiedene Operationalisierungen zurückzuführen. Prüfen Sie, ob die Operationalisierung transparent dargelegt wird. Werden Argumente für die Vorgehensweise präsentiert? Werden unterschiedliche Vorschläge gegeneinander abgewogen? Unter anderem dadurch können Studien miteinander verglichen und bewertet werden.
Für viele theoretische Konzepte haben sich in den Sozialwissenschaften aber auch bestimmte Operationalisierungen durchgesetzt. Empfehlungen zur Erfassung sozialstruktureller Merkmale bietet der Band „Demographische Standards“ des Statistischen Bundesamts (2016). GESIS – LeibnizInstitut für Sozialwissenschaften bietet mit der Zusammenstellung sozialwissenschaftlicher Items und Skalen (ZIS) eine Übersicht von über 200 sozialwissenschaftlichen Erhebungsinstrumenten, zum Beispiel Indikatoren zur Erfassung politischer Einstellungen oder Persönlichkeit
Messung
Nach der klassischen Definition von Stevens (1946) ist Messung die Zuordnung von Zahlen zu Objekten nach bestimmten Regeln. Zum besseren Verständnis: Gemessen werden nicht die Objekte, sondern Merkmale bzw. Eigenschaften von Objekten. Ein solches „Objekt“ könnte der Mensch sein. Ein Merkmal könnte die Körpergröße, die Haarfarbe oder auch das Einkommen sein. Das Ergebnis einer Messung sind Zahlen. Die Merkmale „Körpergröße“ oder „Haarfarbe“ werden durch Zahlen abgebildet. Die Zahlen werden den Eigenschaften der Objekte allerdings nicht willkürlich zugeordnet, sondern nach bestimmten Regeln. Günstig wäre eine Zuordnung, die die Beziehung der Eigenschaften der Objekte widerspiegelt. Dies wäre eine strukturtreue Abbildung. Strukturtreu heißt, dass die Beziehung der Merkmale durch die Zahlen widergespiegelt wird.
Morphismus
Ziel einer Messung ist die strukturtreue Abbildung eines empirischen Relativs zu einem numerischen Relativ. Eine strukturtreue Abbildung wird Morphismus genannt. In Abbildung 11 werden zwei Arten von Morphismen unterschieden: Isomorphismus und Homomorphismus. Beim Isomorphismus besteht eine wechselseitige eindeutige Zuordnung zwischen empirischem und numerischem Relativ, das heißt jedes Merkmal erhält eine eigene Ziffer. Beim Homomorphismus werden dagegen mehrere Merkmale mit derselben Zahl verknüpft. Dadurch ist kein eindeutiger Rückschluss vom numerischen Relativ auf das empirische Relativ möglich.
—> Beispiel Schulabschlüsse: Beim Isomorphismus wird jedem Abschluss eine Zahl zugeordnet. Je höher der Abschluss, desto höher die Zahl. Die Zuordnung beim Isomorphismus ist wechselseitig eindeutig, da jedem Abschluss nur eine Zahl zugeordnet wird. Beim Homomorphismus werden dagegen mehrere Abschlüsse mit derselben Zahl verknüpft. Dadurch ist kein Rückschluss vom numerischen zum empirischen Relativ möglich.
Eine umkehrbare eindeutige Abbildung wird als Isomorphismus bezeichnet. Sind einer Zahl mehrere Merkmale zugeordnet, dann handelt es sich um eine nicht umkehrbare eindeutige Abbildung (Homomorphismus).
Skalen
Eine Skala ist eine strukturtreue Abbildung eines empirischen Relativs in ein numerisches Relativ. In den Sozialwissenschaften werden meist die Skalenarten von Stevens (1946) verwendet, der vier Skalenniveaus unterscheidet: Nominal-, Ordinal-, Intervall- und Ratioskala. Intervall- und Ratioskalen werden auch metrische Skalen genannt.
Warum ist die Unterscheidung der Skalen wichtig? In der Regel ist der Informationsgehalt einer Messung umso höher, je höher die Skala bzw. das Skalenniveau ist. Das Messniveau einer Ordinalskala ist höher als das Messniveau einer Nominalskala und das Messniveau einer Ratioskala ist höher als das Messniveau einer Intervallskala (allgemein: Ratioskala > Intervallskala > Ordinalskala > Nominalskala). Je höher die Skala, desto mehr (statistische) Auswertungsverfahren sind möglich. Die Kenntnis der Skalenniveaus ist wichtig, um bei der Datenanalyse nur die zulässigen Auswertungsverfahren anzuwenden. Viele statistische Verfahren sind nur zulässig, wenn eine Messung mit mindestens Intervallskalenniveau vorliegt. Deshalb wird meist ein möglichst hohes Messniveau angestreb
Die Nominalskala ist das unterste Messniveau. Bei einer Nominalskala wird jedes Merkmal eines Objekts genau einer Klasse zugeordnet. Schnell et al. (2018, S. 125) betonen: „Weder darf ein bestimmtes Objekt überhaupt nicht zugeordnet werden, noch darf ein Objekt mehreren Klassen zugeordnet werden.“ Eine Nominalskala erlaubt damit lediglich eine Unterscheidung der Objekte. Ein bekanntes Beispiel für ein nominalskaliertes Merkmal ist das Geschlecht, das aus folgenden Kategorien besteht: weiblich, männlich und divers. Bei einer Nominalskala werden den einzelnen Klassen unterschiedliche Ziffern zugeordnet, die allerdings nur eine Kennzeichnung darstellen. Die konkrete Bezifferung ist aber eine reine Definition, die nicht falsch oder richtig, sondern allenfalls mehr oder weniger sinnhaft ist. Die Möglichkeiten von Auswertungsverfahren bei nominalskalierten Merkmalen sind begrenzt: Die Objekte können nur ausgezählt werden.
Ordinalskala: Während bei einer Nominalskala die Objekte bzw. die Merkmale der Objekte lediglich in Bezug auf ihre Unterscheidbarkeit untersucht werden, können bei einer Ordinalskala die Merkmale der Objekte zusätzlich in eine Rangordnung gebracht werden. Die Ausprägungen stehen in einer relationalen Beziehung und die zugeordneten Ziffern geben diese Rangordnung wieder. Ein klassisches Beispiel sind Schulnoten. Dabei werden den Noten Ziffern zugeordnet: mangelhaft = 5, ausreichend = 4, befriedigend = 3, gut = 2 und sehr gut = 1. Die Schulnoten geben eine ordinale Rangordnung vor. Bei einer Ordinalskala stehen bereits mehr (statistische) Auswertungsverfahren zur Verfügung als bei einer Nominalskala. Es kann der Median bestimmt werden, der eine Verteilung in zwei Hälften teilt.
Eine Intervallskala zeichnet sich dadurch aus, dass die einzelnen Ausprägungen auf einer Skala nicht nur in eine Reihenfolge gebracht werden können, sondern, dass die Abstände zwischen den Ausprägungen auch gleich sind. „Die Intervalle müssen die gleiche Größe besitzen. Die entsprechenden Zahlen müssen daher stets dieselbe Differenz besitzen.“ Ein Beispiel sind Temperaturmessungen in Grad Celsius. Der Abstand zwischen 15 und 20 Grad Celsius ist genau so groß wie der Abstand zwischen 20 und 25 Grad Celsius (jeweils fünf Grad Celsius). Mit anderen Worten: Bei einer Intervallskala sind die Abstände (Differenzen) zwischen den Merkmalsausprägungen gleich. Es kann folglich Äquidistanz der Abstände unterstellt werden. Es gibt allerdings – im Vergleich zu Verhältnis- und Ratioskalen – keinen natürlichen Nullpunkt. Der „Sprung“ von der Ordinal- zur Intervallskala ist in den Sozialwissenschaften von großer Bedeutung, da eine Vielzahl von statistischen Auswertungsverfahren intervallskallierte Messungen voraussetzt. Das Problem: In den Sozialwissenschaften sind solche Skalen eigentlich selten. Eine Lösung für dieses Problem ist die Entwicklung von Messinstrumenten, die die Voraussetzungen einer Intervallskala erfüllen. Für Daten auf Intervallskalenniveau stehen eine Reihe von zusätzlichen statistischen Verfahren zur Verfügung: Mittelwert, Standardabweichung und Korrelationen
Viele statistische Auswertungsverfahren setzen mindestens intervallskalierte Messungen voraus, allerdings liegen empirische Informationen häufig nur auf ordinalem Skalenniveau vor. Dadurch werden die Analysemöglichkeiten eingeschränkt. Deshalb werden in der empirischen Praxis häufig Skalen ab etwa fünf Ausprägungen als pseudometrische Skalen behandelt. Für die Behandlung einer Ordinalskala als pseudometrische Skala ist neben der Mindestanzahl von fünf Ausprägungen allerdings entscheidend, dass die Abstände zwischen den Merkmalsausprägungen nicht nur in eine Reihenfolge gebracht werden können, sondern dass die Abstände zwischen den Ausprägungen auch gleich sind (Äquidistanz).
Bei Verhältnis- bzw. Ratioskalen sind schließlich nicht nur die Abstände zwischen den einzelnen Skalenpunkten gleich, sondern es existiert noch ein echter Skalennullpunkt. Zum Vergleich: Bei der obigen Frage zur Erfassung des sozialen Vertrauens gibt es zwar auch einen „Skalennullpunkt“, aber dieser ist künstlich gesetzt. Die Skala könnte auch den Bereich 10 bis 20 abbilden. Eine Verhältnis- oder Ratioskala besitzt aber einen echten Nullpunkt. Ein typisches Beispiel für eine Verhältnis- oder Ratioskala ist die Messung von Längen mit Hilfe eines Lineals oder Metermaßes. In den Sozialwissenschaften sind das Nettoeinkommen, die Dauer der Arbeitslosigkeit oder die Anzahl der im vergangenen Jahr gelesenen Bücher Beispiele für Merkmale von Objekten, die mit Verhältnis- bzw. Ratioskalen gemessen werden können. Eine besondere Variante der Verhältnis- oder Ratioskala ist die Absolutskala. Außer einem natürlichen Nullpunkt gibt es noch eine natürliche Einheit. „Die Anzahl der Personen in einem Raum, die Anzahl der Gasmoleküle in einem Kubikmeter Luft sind demnach Eigenschaften, die mit einer Absolutskala gemessen werden können.“
Wie bereits oben dargestellt, unterscheiden sich die einzelnen Skalenniveaus auch mit Blick auf die Zulässigkeit statistischer Auswertungsverfahren. Bei einer Nominalskala können die Werte nur ausgezählt werden. Es kann beispielsweise der häufigste Wert (Modus) ermittelt werden. Bei einer Messung auf Ordinalskalenniveau kann der Median bestimmt werden. Bei einer Messung auf Intervallskalenniveau können Differenzen gebildet werden, sodass der Mittelwert, die Standardabweichung oder auch Korrelationen berechnet werden können. Schließlich können bei einer Ratioskala auch sinnvolle Quotienten gebildet werden
Gütekriterien
In der empirischen Sozialforschung lassen sich allgemein drei Gütekriterien der Operationalisierung unterscheiden: Objektivität, Reliabilität und Validität
Unter Objektivität wird die Unabhängigkeit der Messung vom jeweiligen Forscher verstanden. Die Objektivität einer Messung ist dann gegeben, wenn verschiedene Personen mit dem gleichen Messinstrument zum gleichen Ergebnis kommen. „Vollständige Objektivität liegt vor, wenn zwei Anwender A und B mit dem gleichen Messinstrument jeweils übereinstimmende Resultate erzielen.“ (Diekmann 2011, S. 249) Die Objektivität eines Messinstruments wird deshalb auch als Anwenderunabhängigkeit bezeichnet. Das Testergebnis ist unabhängig von der Person, die die Messung vornimmt. Mit Döring und Bortz lassen sich drei Aspekte der Objektivität unterscheiden: Durchführungsobjektivität, Auswertungsobjektivität und Interpretationsobjektivität
Die Durchführungsobjektivität bezieht sich auf die Phase der Datenerhebung. Zwei verschiedene Interviewer sollten beispielsweise bei einer Befragung mit dem gleichen Fragebogen bei einer Person zu den gleichen Ergebnissen kommen. Der Interviewer stellt Fragen, die der Befragte beantworten soll. Dieser soll die Frage allerdings unabhängig vom anwesenden Interviewer beantworten, das heißt, der Interviewer soll keinen Einfluss auf die Antworten des Befragten haben
Die Auswertungsobjektivität bezieht sich auf die Analyse der gesammelten Daten. Die Auswertungsobjektivität ist gegeben, wenn verschiedene Personen mit den gleichen Daten und den gleichen Auswertungsverfahren zu den gleichen Ergebnissen kommen. Ein Beispiel in Anlehnung an Diekmann (2011, S. 249) soll die Auswertungsobjektivität illustrieren.
Die Interpretationsobjektivität bezieht sich nach Krebs und Menold auf die Interpretation sozialwissenschaftlicher Forschungsergebnisse. Da die Interpretation empirischer Ergebnisse subjektiven Wertungen (Werturteilen) unterliegen kann, ist die Interpretationsobjektivität häufig eingeschränkt
Mit Reliabilität ist die Zuverlässigkeit einer Messung gemeint. Das Gütekriterium bezieht sich damit auf die Replizierbarkeit von Messungen und beschreibt das Maß der Genauigkeit, mit der ein Konzept erfasst werden kann. Wiederholte Messungen eines unveränderten Konzepts mit dem gleichen Messinstrument sollen die gleichen Ergebnisse liefern. Perfekte Reliabilität bedeutet, den „wahren Wert“ eines Konzepts ohne jeden Messfehler zu erfassen. Ein Beispiel: Von einem Balkon wird zehnmal ein Tennisball geworfen. Ein Forscher notiert sich jeweils die Zeit, die der Tennisball bis zum Aufprall auf die Erde benötigt. Auch bei identischen Würfen wird sich – bedingt durch die menschliche Reaktionszeit – die gemessene Zeit bei den einzelnen Würfen leicht unterscheiden. Diese Abweichung vom „wahren Wert“ wird als Messfehler bezeichnet. Ein Messverfahren ist reliabel, wenn diese Messfehler möglichst gering sind. In der empirischen Praxis lassen sich Messfehler allerdings nicht völlig vermeiden.
—>Das Grundmodell der klassischen Testtheorie basiert auf der Annahme, dass sich ein Messwert (X) aus einem wahren Wert (T = True Score) und dem Messfehler (E = Error Score) zusammensetzt. Formal betrachtet: X = T + E Die Messung der kognitiven Mobilisierung einer Person setzt sich beispielsweise aus der „wahren“ kognitiven Mobilisierung (T) und einem Fehlerterm (E) zusammen. Ein möglicher Fehler könnte sein, dass eine Befragte beim Ausfüllen des Fragebogens in der Spalte verrutscht. Eine Annahme der klassischen Testtheorie ist jetzt, dass sich die „Fehler“ bei wiederholten Messungen ausgleichen. Werden jetzt „viele“ Messungen durchgeführt, dann gleichen sich die Ungenauigkeiten „irgendwann“ aus. Als „wahrer Wert“ kann der Mittelwert einer großen Anzahl unabhängiger Messungen desselben Konzepts aufgefasst werden.
In der Literatur werden drei Vorgehensweisen unterschieden, um die Reliabilität eines Messinstruments einschätzen zu können: Test-Retest-Methode, Paralleltest-Methode und Methode der Testhalbierung
Bei der Test-Retest-Methode wird das Konzept, das erfasst werden soll, bei den gleichen Personen zu zwei Zeitpunkten gemessen. Danach werden die Ergebnisse verglichen. Das Problem dieser Methode ist, dass eine zeitliche Stabilität der Konzepte unterstellt wird. Ein Beispiel: Die Personen werden zu ihrer Haltung gegenüber Kernenergie befragt. Zwischen den beiden Zeitpunkten der Messung ereignet sich ein Reaktorunglück.Die Methode ist daher bei instabilen bzw. zeitabhängigen Merkmalen wenig brauchbar. Ein weiterer Nachteil der Test-Retest-Methode besteht in ihrem relativ großen Aufwand, da die Messung zweimal durchgeführt werden muss
Bei der Paralleltest-Methode werden zwei unterschiedliche Messinstrumente verwendet, die jeweils das gleiche Konzept messen und identische Messeigenschaften haben sollen. Diese Vorgehensweise ist in der Praxis ebenfalls nicht sehr verbreitet, da einerseits die Entwicklung ähnlicher Indikatoren schwierig und andererseits die doppelte Datensammlung auch sehr aufwändig ist
Die Methode der Testhalbierung setzt voraus, dass ein Konzept mit mehreren Indikatoren gemessen wird (siehe Abschnitt 7.5). Im European Social Survey wird beispielsweise das soziale Vertrauen mit drei Fragen (Items) erfasst. Die Methode der Testhalbierung basiert nun auf der Idee, dass Personen mit einem größeren sozialen Vertrauen bei allen drei Fragen eher höhere Zahlen angeben und Personen mit einem geringeren sozialen Vertrauen bei allen Fragen eher niedrigere Werte nennen. Auf dieser Basis lassen sich dann sogenannte Reliabilitätskoeffizienten berechnen. Am bekanntesten ist Cronbachs Alpha, der Werte zwischen 0 und 1 annehmen kann. Höhere Werte lassen auf eine höhere Reliabilität schließen. Nach Schnell et al. können Werte über 0,8 als akzeptabel betrachtet werden. In der empirischen Praxis werden meist auch niedrigere Koeffizienten akzeptiert.
Mit Validität ist die Gültigkeit eines Messinstruments gemeint. Ein Messinstrument ist valide (gültig), wenn es tatsächlich das misst, was es messen soll. Es geht um den Grad der Genauigkeit, mit der ein bestimmtes Konzept gemessen werden soll. Im Mittelpunkt des Gütekriteriums Validität stehen damit die Indikatoren, die ausgewählt und/oder entwickelt wurden, um das Konzept empirisch zu erfassen. Wie weiter oben bereits dargestellt, besteht das zentrale Problem der Validität darin, ob die Zuordnung eines Indikators zu einem theoretischen Konzept überhaupt gerechtfertigt ist. In der Literatur werden drei Formen der Validität unterschieden: Inhaltsvalidität, Kriteriumsvalidität und Konstruktvalidität
Die Inhaltsvalidität bezieht sich darauf, dass möglichst alle Dimensionen des Konzepts, das gemessen werden soll, bei der Messung auch berücksichtigt werden. Eine valide Messung des Konzepts „Kognitive Mobilisierung“ müsste folglich alle Dimensionen des Konzepts abdecken. Nur wenn in der Phase der Konzeptspezifikation die Dimensionen spezifiziert wurden, können bei der Operationalisierung entsprechende Instrumente entwickelt werden.
Die Kriteriumsvalidität bezieht sich auf einen Vergleich der empirischen Ergebnisse des eigenen Messinstruments mit den Ergebnissen eines anderen (etablierten) Messinstruments. Die Kriteriumsvalidität ist gegeben, wenn die Ergebnisse der beiden Instrumente vergleichbar sind. Mit der Kriteriumsvalidität sind zwei offensichtliche Probleme verbunden: Erstens muss ein geeignetes (und allgemein etabliertes) Messinstrument existieren, um das eigene Instrument damit vergleichen zu können. Falls ein solches Instrument existiert, stellt sich allerdings zweitens die Frage, warum nicht gleich dieses etablierte Messinstrument verwendet wird.
Inhalts- und Kriteriumsvalidität sind einerseits wenig aussagekräftig und andrerseits selten anwendbar. In den Sozialwissenschaften ist insbesondere die Konstruktvalidierung von großer Bedeutung. Für die Prüfung der Konstruktvalidität werden mehrere theoretisch plausible Hypothesen über den Zusammenhang zwischen dem zu messenden Konzept und anderen Konzepten formuliert und empirisch überprüft. Bei der Konstruktvalidierung des Konzepts „Kognitive Mobilisierung“ müssten entsprechend Hypothesen über den Zusammenhang zwischen der kognitiven Mobilisierung und anderen Konzepten entwickelt werden. Für die Prüfung der Konstruktvalidität werden mehrere theoretisch plausible Hypothesen über den Zusammenhang zwischen dem zu messenden Konzept und anderen Konzepten formuliert und empirisch überprüft. Bei der Konstruktvalidierung des Konzepts „Kognitive Mobilisierung“ müssten entsprechend Hypothesen über den Zusammenhang zwischen der kognitiven Mobilisierung und anderen Konzepten entwickelt werden
Skalenkonstruktion/ Indexbildung
Für die Operationalisierung einfacher Konzepte wie Alter oder Geschlecht ist in der Regel ein Indikator ausreichend. In den Sozialwissenschaften sind wir allerdings häufig mit komplexen Konzepten konfrontiert, die nicht nur mit einem Indikator erfasst werden können. In der empirischen Praxis werden deshalb häufig mehrere Indikatoren verwendet, um Konzepte wie soziales Vertrauen oder sozioökonomischer Status zu erfassen. Der Vorgang der Zusammenfassung mehrerer Indikatoren wird als Skalenkonstruktion bzw. als Indexbildung bezeichnet.
Wenn die verwendeten Indikatoren das gleiche theoretische Konzept erfassen (z.B. soziales Vertrauen), dann wird der Prozess der Zusammenfassung als Skalenkonstruktion bezeichnet. Die Indikatoren werden als reflektive Indikatoren bezeichnet, da sie dasselbe theoretische Konzept reflektieren. – Wenn mehrere Indikatoren zu einem neuen Konzept zusammengefasst werden (z.B. sozioökonomischer Status), dann sollte von Indexbildung gesprochen werden. Die Indikatoren werden als formative Indikatoren bezeichnet, weil sie das Konzept nicht reflektieren, sondern bedingen. Der wesentliche Unterschied zwischen Skalenkonstruktion und Indexbildung besteht folglich in der Dimensionalität des erfassten Merkmals. Bei der Skalenkonstruktion wird nur ein theoretisches Konzept erfasst, ein Index ist dagegen mehrdimensional angelegt.
Für die Skalenkonstruktion werden die Angaben der Befragten (also die Werte) zusammengezählt (siehe Tabelle 10). Ein Befragter, der mit 6 bei Vertrauenswürdigkeit, mit 8 bei Fairness und mit 7 bei Hilfsbereitschaft geantwortet hat, hätte den Wert 21. Wer mit 4, 6 und 8 antwortet, erhält den Wert 18. In der empirischen Praxis wird die durch Addition der einzelnen Indikatoren gebildete Summe noch durch die Anzahl der Indikatoren dividiert (hier durch 3). Dies hat den Vorteil, dass der Skalenwert wieder mit dem ursprünglichen Wertebereich vergleichbar ist.
Bei der Zusammenfassung mehrerer Items zu einer Skala stellt sich aber zwangsläufig die Frage, ob die verwendeten Items überhaupt zur Messung des Konzepts geeignet sind und folglich zu einer Skala zusammengefasst werden sollten. Vor der eigentlichen Skalenkonstruktion muss deshalb die Eignung der Items überprüft werden. Dabei wird in der Forschungspraxis meist auf das statistische Verfahren der Faktorenanalyse zurückgegriffen. Mittels einer Faktorenanalyse lässt sich prüfen, ob mehrere Items ein und dasselbe Konstrukt erfassen – also eindimensional sind – und somit überhaupt zu einer Skala zusammengefasst werden sollten
Unter einem Index wird die Zusammenfassung mehrerer Indikatoren zu einer neuen Variable nach festen Vorschriften verstanden. Die Indikatoren erfassen dabei verschiedene Dimensionen, die getrennt voneinander erfasst und anschließend zu einer neuen Variable zusammengefasst werden. Bei einer Indexkonstruktion müssen zunächst die Dimensionen festgelegt und anschließend die Regeln angegeben werden, wie die Indikatoren kombiniert werden.
Bei einer Primäranalyse werden zur Überprüfung der formulierten Hypothesen neue Daten erhoben. Bei einer Sekundäranalyse werden bereits vorhandene Daten genutzt, um Hypothesen zu überprüfen. Solche Daten werden als Sekundärdaten bezeichnet
Falls keine Ressourcen für eine eigene Datenerhebung zur Verfügung stehen, dann sollte keine eigene Datenerhebung durchgeführt werden
Die Nutzung existierender Daten für die Überprüfung eigener Hypothesen bzw. zur Beantwortung eigener Forschungsfragen wird Sekundäranalyse genannt. Für empirische – quantitative – Haus- und Abschlussarbeiten sind Sekundäranalysen die einzige sinnvolle Strategie, da im Rahmen einer Haus- oder Abschlussarbeit nicht ausreichend Ressourcen zur Verfügung stehen, um selbst Daten zu erheben. Das einzige Problem bei einer Sekundäranalyse besteht für den Forscher darin, dass er für seine Forschungsfrage geeignete Daten finden muss:
„Es müssen dann Indikatoren bzw. Variablen aus vorhandenen Datenbeständen für die nunmehr interessierenden Konstrukte gefunden werden. Zugleich muss das Auswahlverfahren, welches für die bei der Sekundäranalyse benutzten Daten angewendet wurde, auch mit dem nunmehr angestrebten Aussagebereich kompatibel sein. So nützt es wenig, wenn geeignete Indikatoren vorliegen, diese jedoch nur an männlichen Jugendlichen erhoben wurden und die Sekundäranalyse Aussagen über Erwachsene anstrebt.“
Der dritte Vorteil von Sekundäranalysen bezieht sich auf die Kontrolle von Forschungsergebnissen. Wer heute Auto, Fernseher oder Handy kauft, der wird vor dem Kauf wahrscheinlich Bewertungen zu dem bevorzugten Produkt recherchieren und lesen. In umfangreichen Tests werden die unterschiedlichsten Produkte auf „Herz und Nieren“ geprüft. In den Sozialwissenschaften wird die Kontrolle empirischer Studien Replikation oder auch Replikationsstudie genannt. Solche Replikationsstudien dienen der Qualitätskontrolle empirischer Studien und sind für die empirische Sozialforschung unentbehrlich.
Selbstverständlich kann nicht jeder Forschende alle gelesenen Studien nochmals überprüfen. Dies wäre weder sinnvoll noch angemessen. Allerdings sollte jede Forscherin die Chance haben, eine gelesene Studie überprüfen zu können. Damit eine Überprüfung aber überhaupt möglich ist, müssen eine empirische Studie sorgfältig dokumentiert, die Datengrundlage verfügbar und die einzelnen Analyseschritte (z.B. Operationalisierung) nachvollziehbar beschrieben sein.
Die Vorteile von Sekundäranalysen sind enorm, allerdings können natürlich nicht alle sozialwissenschaftlichen Fragestellungen mit Sekundärdaten bearbeitet werden. Insbesondere bei neuen „Themen“, überarbeiteten theoretischen Konzepten sowie alternativen Operationalisierungen sind weiterhin Primärerhebungen erforderlich. Zudem können auch Sekundäranalysen problematisch sein, da bei der Operationalisierung der abhängigen und unabhängigen Variablen nicht immer die (theoretisch) optimale Lösung realisiert werden kann. Nach Roose (2013) können Sekundäranalysen auch zu einer Fehlermultiplikation und einer Pfadabhängigkeit der Erkenntnis führen. Deshalb muss die Wissenschaftlerin bei jedem Forschungsprojekt die Vor- und Nachteile von Primär- und Sekundärerhebung abwägen und – mit Blick auf die eigene Forschungsfrage – die Notwendigkeit einer Datenerhebung begründen (Primäranalyse) bzw. Argumente für den ausgewählten Datensatz präsentieren (Sekundäranalyse). Auch die Wahl eines Datensatzes für eine Sekundäranalyse ist deshalb zu erläutern (Warum ist gerade der ausgewählte Datensatz geeignet, um die Forschungsfrage zu beantworten?).
Bei Keil (2009) findet sich eine Übersicht der Datengrundlage der politischen Soziologie, und Behnke (2009) stellt nationale sowie internationale Datenarchive vor. Koop und Lois (2014, S. 31-43) informieren über wichtige soziologische Erhebungen, eine Darstellung von zentralen Datenquellen der vergleichenden Politikwissenschaft findet sich bei Stark und Mohamad-Klotzbach (2016). Hensel (2012) bietet eine Übersicht von Datensätzen in den internationalen Beziehungen. Eine knappe Darstellung zur Sekundäranalyse und dem Zugang zu sozialwissenschaftlichen Daten bietet auch der Beitrag von Porst (2014b), und der Band von Mallock et al. (2016) bietet einen allgemeinen Überblick über Informationsressourcen in den Sozialwissenschaften.
Mit Designgewicht ist eine theoretisch-statistische Gewichtung aufgrund einer bekannten Auswahlwahrscheinlichkeit gemäß eines Stichprobenplans gemeint . In der ALLBUS sind Befragte aus den neuen Bundesländern überproportional vertreten, um gesonderte Analysen der ostdeutschen Teilstudie mit aussagekräftigen Fallzahlen zu gewährleisten. Bei einer Analyse für das gesamte Bundesgebiet würde ohne eine Gewichtung, bei der diese Überrepräsentierung korrigiert wird, die Auswertung allerdings verzerrt sein, da im Verhältnis mehr Ost- als Westdeutsche berücksichtigt werden. Diese Überrepräsentierung wird durch eine Gewichtungsvariable (das Designgewicht) korrigiert. Solche Gewichtungsvariablen sind in den jeweiligen Datensätzen bereits enthalten und müssen bei der statistischen Analyse berücksichtigt werden
Das Forschungsdesign – häufig auch Untersuchungsanordnung genannt – umfasst im weiten Verständnis die Beantwortung mehrerer Fragen: Wann, wo, wie und wie oft müssen die empirischen Indikatoren an welchen Objekten erfasst werden, um die formulierten Hypothesen prüfen zu können ? In Anlehnung an Diekmann (2011, S. 194) lassen sich bei einem engen Verständnis des Forschungsdesigns drei zentrale Entscheidungen unterscheiden: Erstens muss in Abhängigkeit von den formulierten Hypothesen die Untersuchungsebene festgelegt werden. Zweitens muss die Untersuchungsform geklärt werden. Drittens muss die Häufigkeit der Datenerhebung spezifiziert werden. Diese drei Entscheidungen werden teilweise nacheinander, teilweise aber auch zeitlich parallel und in einem wechselseitigen Zusammenhang getroffen. Die Festlegung des Forschungsdesigns hat dabei auch Konsequenzen für das Auswahlverfahren und die Datenerhebung
Untersuchungsebene
Die Formulierung von Hypothesen beinhaltet immer auch eine Entscheidung über die Untersuchungsebene. Mit der Individual-, der Kollektiv- und der Kontexthypothese werden drei Hypothesenarten unterschieden (Kapitel 6). Mit der jeweiligen Hypothesenart ist eine spezifische Untersuchungsebene verbunden: Bei Individualhypothesen ist die Mikroebene z.B die Untersuchungsebene. Beide Merkmale der Hypothese – also uV und aV – sind der Individualebene zuzuordnen. Bei Kollektivhypothesen ist die Makroebene die Untersuchungsebene. Häufig werden Untersuchungen auf der Makroebene auch Aggregatdatenanalysen genannt. Beide Merkmale einer Kollektivhypothese sind der Kollektiv- bzw. Aggregatebene zuzuordnen. Bei Kontexthypothesen wird ein Einfluss des Kontexts auf individuelle Einstellungen und/oder Verhaltensweisen postuliert. Bei einer Kontexthypothese ist die abhängige Variable der Mikroebene (Individualebene) und die unabhängige Variable der Makroebene (Kontextebene) zuzuordnen.
Während bei einer Individualdatenanalyse Unterschiede zwischen Individuen erklärt werden, werden bei einer Aggregatdatenanalyse Unterschiede zwischen Kollektiven bzw. Aggregaten erklärt
Bei einer Kontextanalyse befindet sich die abhängige Variable (hier: Wahlbeteiligung) auf der Individualebene. Die unabhängigen Variablen verteilen sich allerdings auf die Individual- und die Kontextebene. Der Begriff „Kontext“ bezieht sich dabei auf das Umfeld des Befragten. Bei Wahlanalysen ist mit Kontext häufig das nationalstaatliche Umfeld gemeint. Allerdings kann sich der Kontext auch auf die Region (z.B. Wahlkreise) oder auch die Gemeindeebene beziehen. Danach ist die Wahlbeteiligung einer Person nicht nur auf andere Individualmerkmale zurückzuführen (z.B. Parteiidentifikation, Wahlnorm), sondern auch von Merkmalen des Umfelds bzw. Kontexts abhängig. Ein Einfluss des Kontexts unabhängig von den Effekten der Individualmerkmale wird allgemein als struktureller Effekt bezeichnet. Darüber hinaus kann der Kontext bzw. ein Merkmal des Kontexts auch einen Effekt auf den Zusammenhang zwischen der unabhängigen und der abhängigen Variable auf der Individualebene haben. In der Sprache der empirischen Sozialforschung wird dies als Cross-Level-Interaktion bezeichnet
Untersuchungsform
Im Rahmen des Forschungsdesigns muss festgelegt werden, mit welcher Untersuchungsform die aus den theoretischen Überlegungen hergeleiteten Hypothesen überprüft werden sollen. In den Sozialwissenschaften wird mit einer Vielzahl empirischer Untersuchungsformen gearbeitet. Jede dieser Untersuchungsformen umfasst bestimmte Vorgehensweisen, die festlegen, wie empirische Informationen gesammelt und wie die Hypothesen anschließend empirisch überprüft werden. Die Vielzahl der Untersuchungsformen lässt sich auf zwei Grundtypen zurückführen: Experimente und nicht-experimentelle Untersuchungsformen. Die nicht-experimentellen Untersuchungsformen werden in der Literatur auch als Ex-post-facto-Designs bezeichnet.
Korrelation: Eine Korrelation beschreibt den Zusammenhang zwischen zwei Merkmalen, das heißt, ob die Ausprägung eines Merkmals mit der Ausprägung eines anderen Merkmals korrespondiert. Eine positive Korrelation bedeutet, dass hohe Werte eines Merkmals mit hohen Werten eines anderen Merkmals auftreten. Von einer negativen Korrelation wird gesprochen, wenn zu einem hohen Wert eines Merkmals tendenziell ein niedriger Wert des anderen Merkmals gehört.
Der Korrelationskoeffizient ist ein Maß für den Grad des linearen Zusammenhangs zwischen zwei Merkmalen; er kann Werte zwischen -1 und +1 annehmen. Werte mit einem positiven Vorzeichen deuten auf einen positiven Zusammenhang und Werte mit einem negativen Vorzeichen auf einen negativen Zusammenhang hin. Eine Korrelation von +1 bzw. -1 bedeutet, dass zwei Merkmale perfekt korrelieren. In der empirischen Praxis sind solche perfekten Korrelationen selten. Werte ± 0 deuten auf keinen Zusammenhang zwischen den beiden Merkmalen hin. Der Korrelationskoeffizient gibt aber nur den mehr oder weniger starken Zusammenhang von zwei Merkmalen an und ist „ausschließlich ein Maß für Gleichklang in den Daten“ (Krämer 1994, S. 144). Auf Basis des Korrelationskoeffizienten kann aber keine Aussage über den Ursache-Wirkungs-Zusammenhang getroffen werden.
Kausalität: In Anlehnung an Hill (1965) nennen Schnell et al. (2018, S. 189-190) unter anderem folgende Bedingungen, die erfüllt sein müssen, damit eine Beziehung zwischen einer uV (Ursache) und einer aV (Wirkung) als kausal interpretiert werden kann: • Die Ursache sollte der Wirkung zeitlich vorausgehen. • Der Zusammenhang zwischen zwei Merkmalen sollte stark sein. • Der Zusammenhang zwischen zwei Merkmalen sollte sich in verschiedenen Untersuchungskontexten an unterschiedlichen Populationen zeigen. • Ein theoretisches Argument (ein plausibler Mechanismus), der dem Kausalzusammenhang zugrunde liegt, sollte genannt werden können.
Die Prüfung dieser Bedingungen und damit der Nachweis kausaler Beziehungen sind keineswegs trivial. Die beiden Grundtypen der Untersuchungsform – Experimente und Ex-post-facto-Designs – unterscheiden sich insbesondere im Grad der Zuverlässigkeit, kausale Beziehungen identifizieren zu können. Das Experiment ist die beste Methode für den Nachweis von Ursache-Wirkungs-Zusammenhängen. Deshalb gilt die experimentelle Methode als das „Untersuchungsdesign zur Analyse eines kausalen Zusammenhangs“ (Behnke et al. 2010, S. 73) und als „Idealtyp empirischer Forschung“ . Ex-post-facto-Designs eignen sich nur eingeschränkt für den Nachweis kausaler Beziehungen. Da bei vielen Fragestellungen allerdings keine Experimente möglich sind, stellen Expost-facto-Designs die dominierende Untersuchungsform in Soziologie, Politik- und Verwaltungswissenschaft dar.
Experiment: Ausgangspunkt eines jeden Experiments ist eine angenommene Ursache-Wirkungs-Beziehung zwischen einer unabhängigen Variable (uV) und einer abhängigen Variable (aV). Bei einem Experiment wird die unabhängige Variable (die Ursache) kontrolliert verändert, um anschließend mögliche Effekte auf die abhängige Variable (die Wirkung) zu beobachten. Diese kontrollierte Veränderung wird als Treatment oder Stimulus bezeichnet. Wenn sich nach der Änderung der uV eine Veränderung der aV beobachten lässt, dann ist diese Veränderung (wahrscheinlich) eine kausale Folge der unabhängigen Variable.
Treatment: Der Begriff „Treatment“ oder „Stimulus“ ist weit gefasst: In Abhängigkeit von der Fragestellung kann es sich unter anderem um eine schriftliche Information, ein Video, Musik oder auch die Anwesenheit einer anderen Person handeln. Ein Treatment stellt in einem Experiment die unabhängige Variable dar. Einigen Personen wird das Treatment verabreicht (Experimentalgruppe), anderen Personen nicht (Kontrollgruppe). Nach der Verabreichung des Treatments wird die interessierende Reaktion (die aV) in beiden Gruppen erfasst und verglichen. Existiert ein Kausalzusammenhang zwischen der uV und der aV, dann werden sich die Reaktionen der beiden Gruppen unterscheiden
Wie lässt sich sicherstellen, dass es zwischen der Experimental- und der Kontrollgruppe keinen systematischen Unterschied gibt? Die Antwort für dieses schwierige Problem heißt Randomisierung (Fisher 1951). Mit Randomisierung ist die zufällige Verteilung der Versuchspersonen auf Experimental- und Kontrollgruppe gemeint. Die Zuweisung in Experimental- oder Kontrollgruppe basiert also nicht auf soziologischen, psychologischen oder biologischen Kriterien, sondern ausschließlich auf einem Zufallsprozess. Diese Zufallsauswahl gewährleistet, dass sich die Verschiedenheiten der Teilnehmer in Geschlecht, Alter und anderen Faktoren gleichmäßig über die verschiedenen Bedingungen verteilen. Systematische Unterschiede in der Gruppenzusammensetzung sind damit unwahrscheinlich. Dadurch ist der Einfluss anderer (vor allem unbekannter) Faktoren auf die abhängige Variable in beiden Gruppen gleich und der in der Experimentalgruppe beobachtbare Effekt des Treatments auf die abhängige Variable ist mit großer Sicherheit auf den Stimulus zurückführen
Nach Aronson et al. (2004, S. 43) ist das Experiment „eine Methode, in welcher der Forscher auf Zufallsbasis Teilnehmern Versuchsbedingungen zuteilt und sicherstellt, dass diese Situationen identisch sind außer der unabhängigen Variable (die Variable, von der angenommen wird, dass sie eine kausale Wirkung auf die Reaktionen der Menschen hat)“.
In der Literatur werden drei klassische experimentelle Designs unterschieden: Erstens die Nachher-Untersuchung mit Kontrollgruppe, zweitens die Vorher-Nachher-Untersuchung mit Kontrollgruppe und drittens das Solomon-Vier-Gruppen-Design . Bei allen drei Formen ist die zufällige Verteilung der Personen in Experimental- und Kontrollgruppe obligatorisch
Nachher-Untersuchung: Die Teilnehmer werden zufällig der Experimental- oder der Kontrollgruppe zugewiesen. Während die Teilnehmer in der Experimentalgruppe mit Gewaltspielen konfrontiert werden, erhalten die Personen in der Kontrollgruppe nicht dieses Treatment. Die Verabreichung des Treatments wird in Tabelle 11 mit einem X angezeigt. Einige Zeit nach dem Konsum von Gewaltspielen wird das aggressive Verhalten erfasst.
Vorher-Nachher-Untersuchung: Bei dieser Vorgehensweise wird vor der Verabreichung des Treatments bei allen Teilnehmern das aggressive Verhalten erfasst. Bei einer erfolgreichen Randomisierung sollte sich das durchschnittliche Aggressivitätsniveau nicht zwischen Experimental- und Kontrollgruppe unterscheiden. Nach der Vorher-Messung wird der Experimentalgruppe das Treatment verabreicht, während die Teilnehmer der Kontrollgruppe kein Treatment erhalten. Danach wird erneut das aggressive Verhalten der Teilnehmer erfasst. Bei den Teilnehmenden der Kontrollgruppe sollte kein Unterschied der abhängigen Variable feststellbar sein. Die Vorher-Nachher-Untersuchung mit Kontrollgruppe schließt viele Alternativerklärungen aus. Allerdings könnte bei dem gewählten Design das aggressive Verhalten nicht allein durch das Treatment verursacht worden sein, sondern durch eine Wechselwirkung zwischen Treatment und der vorherigen Messung
Solomon-Vier-Gruppen-Design: Zum Ausschluss einer solchen Alternativerklärung sind zusätzlich zum Design der Vorher-Nachher-Untersuchung mit Kontrollgruppe zwei weitere Gruppen erforderlich. Bei beiden zusätzlichen Gruppen wird auf eine Vorher-Messung verzichtet und nur eine dieser zusätzlichen Gruppen wird dem Treatment ausgesetzt. Eine solche Versuchsanordnung wird als Solomon-Vier-Gruppen-Design bezeichnet. In Tabelle 13 ist das nach Richard L. Solomon (1949) benannte Solomon-Vier-Gruppen-Design dargestellt. Alle Teilnehmenden werden per Zufall einer der vier Gruppen zugewiesen. In beiden Experimentalgruppen werden die Versuchspersonen dem Treatment ausgesetzt. Dabei wird in der ersten Experimentalgruppe die abhängige Variable vor und nach der Verabreichung des Treatments erhoben, in der zweiten Experimentalgruppe nur nach dem Konsum der Gewaltspiele. In den beiden Kontrollgruppen werden keine gewaltsamen Videospiele verabreicht. In der ersten Kontrollgruppe wird das aggressive Verhalten zweimal erhoben, in der zweiten Kontrollgruppe nur einmal. Eine Wechselwirkung zwischen Vorher-Messung und Treatment wäre dann gegeben, wenn sich O3 und O5 unterscheiden.
Interne Validität: Ziel eines Experiments ist es, möglichst alle Alternativerklärungen für einen Zusammenhang zwischen einer unabhängigen Variable und einer abhängigen Variable auszuschließen. In einem Experiment soll die mögliche Veränderung der aV ausschließlich auf die Manipulation der uV zurückzuführen sein. Wenn für eine eingetretene Veränderung nur eine bestimmte Ursache (die uV) verantwortlich sein kann, dann wird ein Experiment als intern valide bezeichnet. Eine hohe interne Validität ist meist mit künstlichen Rahmenbedingungen und realitätsfremden Situationen verbunden. Klassische „Laborexperimente“ werden in eigens vorbereiteten Räumlichkeiten durchgeführt, die Teilnehmer werden zufällig verschiedenen Gruppen zugewiesen, es werden mehr oder weniger künstliche Treatments „verabreicht“ und alle Reaktionen der Teilnehmer werden genau protokolliert.
Externe Validität: Die Übertragbarkeit experimenteller Befunde auf die Realität wird als externe Validität bezeichnet. Externe Validität ist das „Ausmaß, in welchem die Ergebnisse einer Studie auf andere Situationen oder Menschen verallgemeinert bzw. generalisiert werden können“. Mit Aronson et al. (2004, S. 48) lassen sich zwei Arten der Generalisierbarkeit unterscheiden. Erstens die Generalisierbarkeit von einer künstlichen auf natürliche Situationen und zweitens die Generalisierbarkeit von den Versuchspersonen auf alle Menschen. Für beide Herausforderungen gibt es durchaus plausible Lösungsstrategien , die aber jeweils die interne Validität eines Experiments ungünstig beeinflussen.
Bei der Bewertung von Experimenten wird der internen Validität eine größere Bedeutung zugesprochen als der externen Validität (Eifler und Leitgöb 2019, S. 213). Schließlich ist das Experiment die einzige Untersuchungsform, die kausale Mechanismen identifizieren kann. Deshalb wird bei Experimenten meist eine hohe interne Validität angestrebt, die häufig zu Lasten der externen Validität geht
Das klassische Experiment wird auch als Laborexperiment oder einfach als Experiment bezeichnet. Die Vorher-Nachher-Untersuchung und das Solomon-Vier-Gruppen-Design sind Beispiele für das klassische Experiment. Ein solches Experiment ist – wie in der Definition bereits beschrieben – durch zwei Merkmale gekennzeichnet (siehe auch Huber 2013, S. 67): • Die Manipulation einer uV durch den Forscher • Die zufällige Verteilung auf Experimental- und Kontrollgruppe (Randomisierung)
Das Ziel eines Experiments ist die Prüfung kausaler Beziehungen zwischen einer unabhängigen und einer abhängigen Variable. Ein erfolgreich durchgeführtes Experiment erlaubt eine möglichst sichere Kausalinterpretation zwischen einer uV und einer aV. Angesichts der künstlichen Untersuchungssituation sind mit Blick auf die externe Validität Abstriche zu machen. Neben dem (klassischen) Experiment werden auch Feld- und Quasi-Experimente zu den experimentellen Untersuchungsformen gezählt.
Feld-Experimente: Das klassische Experiment wird unter möglichst kontrollierten Bedingungen durchgeführt. Zu diesen Bedingungen gehören die Räume, die der Forschende entsprechend vorbereitet. Ein Feldexperiment findet dagegen in der natürlichen Umwelt der Versuchspersonen statt, also zum Beispiel in einer Schule oder in einem Betrieb. In den eigenen Räumen – im Labor – hat der Forschende zwar eine bessere Kontrolle über den Versuchsablauf (interne Validität), aber die Generalisierbarkeit (externe Validität) ist eingeschränkt. Bei einem Feldexperiment ist die Kontrolle dagegen geringer, aber die Nähe zur natürlichen Umgebung erleichtert die Übertragbarkeit auf andere Situationen. Dies begünstigt die externe Validität
Quasi-Experiment: Im Vergleich zu einem klassischen Labor-Experiment ist bei einem Quasi-Experiment keine Randomisierung möglich, das heißt, die teilnehmenden Personen können nicht zufällig in eine Experimental- und eine Kontrollgruppe verteilt werden.
Probleme der Manipulation: Bei vielen sozialwissenschaftlichen Studien ist eine Manipulation der unabhängigen Variable nicht möglich. Bestimmte Merkmale (etwa Alter und Geschlecht) entziehen sich einer experimentellen Variation. Bei anderen Merkmalen sprechen ethische Gründe gegen eine entsprechende experimentelle Variation. Bei vielen sozialwissenschaftlichen Studien ist eine Manipulation der unabhängigen Variable nicht möglich. Bestimmte Merkmale (etwa Alter und Geschlecht) entziehen sich einer experimentellen Variation.
Probleme der Randomisierung: Auch die zufällige Zuweisung in Experimental- oder Kontrollgruppe (Randomisierung) lässt sich bei vielen sozialwissenschaftlichen Fragestellungen nicht realisieren. Wer sich für den Einfluss der Ehe auf die Lebenszufriedenheit interessiert, kann Personen nicht zufällig den beiden Bedingungen „verheiratet“ und „nicht verheiratet“ zuweisen. Wer den Effekt der Parteiidentifikation untersuchen möchte, kann die Teilnehmer nicht zufällig in die Gruppen „Parteiidentifikation vorhanden“ und „keine Parteiidentifikation“ einteilen.
—> Bei vielen sozialwissenschaftlichen Fragestellungen sind die Anforderungen, welche für ein Experiment erforderlich sind, nicht erfüllt bzw. nicht erfüllbar. Für solche Fragestellungen bietet sich entsprechend eine nicht-experimentelle Untersuchungsform an. Solche nicht-experimentellen Untersuchungsformen werden Ex-post-facto-Designs genannt. Der zentrale Unterschied ist die stark eingeschränkte Interpretation einer möglichen kausalen Beziehung zwischen uV und aV
Ex-post-facto Design: Bei einem Ex-post-facto-Design wird kein Treatment verabreicht und keine Randomisierung durchgeführt. Bei der einfachsten – und häufigsten – Variante werden die abhängigen und unabhängigen Variablen zu einem Zeitpunkt erfasst. Bei einem Ex-post-facto Design werden uV und aV zeitgleich erhoben und im Anschluss findet eine (theoretische) Trennung in unabhängige und abhängige Variable statt. Ex-post-facto-Designs sind nach Stein (2019, S. 131) zwar die verbreitetste Untersuchungsanordnung in den Sozialwissenschaften, aber hinsichtlich der Interpretation einer kausalen Beziehung zwischen einer uV und einer aV besonders problembehaftet.
In der Literatur werden drei zentrale, aber unvermeidliche Probleme des Ex-post-facto-Designs genannt: 1. Das Problem der kausalen Reihenfolge der Variablen. 2. Das Problem der Kontrolle von Drittvariablen. 3. Das Problem der Varianz der unabhängigen Variablen
Kausalität: Bei einem Ex-post-facto-Design kann festgestellt werden, ob Merkmal A und Merkmal B besonders häufig gemeinsam auftreten (korrelieren). Es kann aber nicht abschließend geklärt werden, welches Merkmal die Ursache und welches Merkmal die Wirkung ist. Das Problem der kausalen Interpretation ist bei einem Ex-post-facto-Design grundsätzlich nicht lösbar. Auch die Befragung der gleichen Personen zu mehreren Zeitpunkten kann das Problem der kausalen Interpretation etwas verringern. Es handelt sich dann um ein sogenanntes Paneldesign. Nur auf Basis theoretischer Argumente kann eine beobachtbare Korrelation als kausale Beziehung interpretiert werden.Es wird leicht vergessen, dass eine Korrelation es nicht erlaubt, kausale Folgerungen zu ziehen. In Tageszeitungen, aber auch in wissenschaftlichen Studien, werden Korrelation und Kausalität mitunter gleichgesetzt. Deshalb: Selbst wenn es sehr plausibel erscheint, dass ein Merkmal ein anderes Merkmal bedingt, stellen Sie sich immer die Frage, ob es nicht auch Alternativerklärungen geben könnte.
Problem von Drittvariablen: Bei einem Experiment wird durch Randomisierung sichergestellt, dass Experimental- und Kontrollgruppe vor der Verabreichung des Treatments vergleichbar sind. Dadurch ist der Einfluss anderer (vor allem unbekannter) Faktoren auf die abhängige Variable in beiden Gruppen gleich und der Effekt des Treatments in der Experimentalgruppe ist mit großer Sicherheit auf den Stimulus zurückzuführen. Bei einem Ex-post-facto-Design gibt es keine Randomisierung und deshalb ist ein Zusammenhang von zwei Merkmalen möglicherweise auf andere Faktoren – sogenannte Drittvariablen – zurückzuführen.
Mit Scheinkorrelation wird der Zusammenhang von zwei Merkmalen bezeichnet, der durch einen dritten Faktor verursacht wird. Scheinkorrelation ist ein weitverbreiteter Begriff in der empirischen Sozialforschung. Behnke et al. (2010, S. 76) ist allerdings zuzustimmen, dass die Bezeichnung durchaus irreführend ist, da die Korrelation zwischen den zwei Merkmalen durchaus existiert. Eine Scheinkorrelation bedeutet vielmehr, dass es zwischen den Merkmalen keine kausale Beziehung gibt. Deshalb ist die Bezeichnung „Scheinkausalität“ angemessener. Bei einem Ex-post-facto-Design kann der Einfluss von möglichen Drittvariablen auf die abhängige Variable nicht konstant gehalten werden. Bereits bei der Datenerhebung müssen potenzielle Drittvariablen erfasst werden, um diese bei der Datenanalyse berücksichtigten zu können. Da aber niemals alle bekannten und unbekannten Drittvariablen bei einer Datenerhebung berücksichtigt werden können, kann bei einem Ex-post-facto-Design niemals grundsätzlich ausgeschlossen werden, dass eine nachgewiesene Korrelation nur eine Scheinkausalität darstellt
Problem der Varianz: „Varianz auf der unabhängigen Variablen bedeutet, dass sich die Befragten in den Ausprägungen dieser Variable unterscheiden. Soll der Zusammenhang zwischen politischem Interesse und Wahlbeteiligung geprüft werden, dann müssen Personen mit schwachem, mittlerem und starkem politischen Interesse interviewt werden, um die Beziehung prüfen zu können. Mit anderen Worten: Bei einem Ex-post-facto-Design ist die Variation der uV zu gewährleisten.
Für verlässliche Schlussfolgerungen bei Ex-post-facto-Designs sind theoretische Überlegungen von zentraler Bedeutung. Theoretisch relevante Drittvariablen, die einen Zusammenhang zwischen uV und aV beeinflussen können, müssen operationalisiert und erfasst werden.
Häufigkeit der Datenerhebung
Mit dem Querschnittdesign und dem Längsschnittdesign werden zwei Grundtypen unterschieden. Beim Querschnittdesign findet eine einmalige, beim Längsschnittdesign eine mehrfache Datenerhebung statt. Beim Längsschnittdesign lassen sich mit dem Trend-, Kohorten- und Paneldesign drei verschiedene Varianten unterscheiden
Querschnittsdesign: Bei der einfachsten – und häufigsten – Variante des Ex-post-facto-Designs werden aV und uV zu einem Zeitpunkt erfasst. Das Querschnittdesign erlaubt damit eine aktuelle Bestandsaufnahme. Wie zufrieden sind die Bürgerinnen und Bürger (zum Zeitpunkt der Erhebung) mit den Leistungen der Bundesregierung? Bei einem Querschnittdesign werden die relevanten Merkmale einmalig und zu einem Zeitpunkt bzw. innerhalb eines kurzen Zeitraums erfasst. Verlässliche Aussagen über kausale Beziehungen zwischen den Merkmalen sind bei einem Querschnittdesign aber nur eingeschränkt möglich. Deshalb ist die Qualität einer Querschnittuntersuchung in erster Linie von der theoretischen Argumentation abhängig. Welche theoretischen Argumente präsentiert der Autor für einen möglichen Zusammenhang zwischen uV und aV? Werden mögliche kausale Mechanismen zwischen uV und aV präsentiert? Werden mögliche Alternativerklärungen genannt? In den Sozialwissenschaften dominieren Querschnittdesigns
Längsschnittdesign: Bei einem Längsschnittdesign sind im Gegensatz zu einem Querschnittdesign wiederholte Erhebungen zu mehreren Zeitpunkten vorgesehen. Der kleine, aber entscheidende Unterschied bei den verschiedenen Varianten des Längsschnittdesigns: Beim Trend- und Kohortendesign werden die gleichen Merkmale zu mehreren Zeitpunkten an verschiedenen Untersuchungseinheiten erfasst. Bei einem Paneldesign werden die gleichen Merkmale zu mehreren Zeitpunkten an den gleichen Untersuchungseinheiten erhoben. Mit Untersuchungseinheiten sind in der Regel Personen gemeint, aber es können auch Makromerkmale wiederholt erfasst werden (z.B. jährliche Erhebung der Arbeitslosenquote oder der Inflationsrate).
Bei einem Trenddesign werden die interessierenden Merkmale zu mehreren Zeitpunkten, aber an verschiedenen Untersuchungseinheiten erfasst. In jedem Semester könnte beispielsweise bei den Studierenden des Moduls M1 „Quantitative Methoden der Sozialwissenschaften“ die allgemeine Zufriedenheit mit der Arbeit der Bundesregierung auf einer Skala von 0 bis 10 erfasst werden. Mit den individuellen Angaben können dann jedes Semester statistische Kennziffern (z.B. Modus, Median, Mittelwert) berechnet werden. Diese aggregierten Werte könnten im Längsschnitt verglichen werden. Hat die Zufriedenheit bei den Studierenden über die Zeit zu- oder abgenommen? Bei einem Trenddesign sind bei jeder Datenerhebung neue Stichproben erforderlich. Die einzelnen Stichproben setzen sich dabei aus verschiedenen Personen zusammen. Für jede Stichprobe werden unterschiedliche Personen befragt. Eine Trenderhebung entspricht damit mehreren Querschnitterhebungen zum gleichen Thema. Bei jeder Erhebung können Mittelwerte oder Prozentangaben berechnet werden. Diese Kennwerte sind dann über die Zeit vergleichbar. Ein Trenddesign basiert in der Regel auf Stichproben. Dadurch sind Veränderungen über die Zeit (z.B. ein Anstieg der Zufriedenheit) möglicherweise auf Stichprobenfehler zurückzuführen. Solche Stichprobenfehler sind bei der Analyse immer zu berücksichtigen
Neben unvermeidlichen Stichprobenfehlern formuliert Westle (2018e, S. 170) vier Bedingungen, die erfüllt sein müssen, um die Entwicklung bestimmter Merkmale über die Zeit vergleichen zu können. Erstens müssen die Merkmale bei den verschiedenen Erhebungen jeweils identisch bzw. äquivalent erfasst werden. Bei einer Befragung müssen beispielsweise jeweils die gleichen Fragen gestellt werden. Zweitens muss der „Typus“ der Erhebungseinheiten jeweils identisch sein. Falls bei einer Erhebung beispielsweise die wahlberechtigte Bevölkerung interviewt wird, und bei einer anderen Erhebung die Bevölkerung ab 15 Jahren, dann wäre ein Vergleich nicht sinnvoll. Drittens sollten die Erhebungseinheiten jeweils mit demselben Auswahlverfahren ermittelt werden (siehe Kapitel 10). Viertens sollte die eigentliche Erhebung jeweils das gleiche Institut durchführen. Insbesondere die dritte und vierte Bedingung werden in der Praxis – insbesondere bei längeren Trenddesigns – nicht immer erfüllt. Dafür gibt es in der Regel auch gute und nachvollziehbare Gründe (z.B. Unzufriedenheit mit einem Institut), allerdings haben solche Veränderungen immer auch Konsequenzen für die Analyse im Zeitverlauf.
Kohortendesign: Ein Kohortendesign ist ein Spezialfall eines Trenddesigns. Was ist eine Kohorte? „Eine Kohorte in den Sozialwissenschaften ist eine Bevölkerungsgruppe, die durch ein zeitlich gemeinsames, längerfristig prägendes Startereignis definiert wird.“ (Diekmann 2011, S. 318) Klassische „Startereignisse“ sind Geburt, Eheschließung oder auch der Berufseintritt. Dabei werden Kohorten auf der Basis bestimmter individueller Ereignisse abgegrenzt (z.B. Geburt, Heirat, Berufseintritt). Es werden beispielsweise Personen befragt, die 1955, 1965 oder 1975 geheiratet haben. Alle Personen, die 1955 geheiratet haben, bilden eine Kohorte.
Eine Kohorte ist zunächst einmal eine Bevölkerungsgruppe, ohne dass diese Personen in irgendeiner Art und Weise eine Gemeinschaft bilden müssen. Allerdings weisen insbesondere Geburtskohorten eine wichtige Gemeinsamkeit auf: „Die Akteure einer bestimmten Geburtskohorte sind alle den Einflüssen einer bestimmten Epoche in der für das spätere Leben so wichtigen Phase der frühkindlichen Sozialisation ausgesetzt.“ Eine sozialwissenschaftliche Frage ist, ob die spezifischen historischen Umstände, in denen eine Kohorte aufgewachsen ist, Auswirkungen auf das spätere Leben haben. Wird diese Frage bejaht, dann werden in der Tradition von Karl Mannheim (1928) solche Kohorten als Generation bezeichnet. Danach kann von einer Generation gesprochen werden, wenn es in der jeweiligen Jugendzeit typische, abgrenzbare und nachhaltige Lebensumstände gegeben hat. Die in der Jugendzeit gemachten Erfahrungen – so die Annahme – bleiben auch im weiteren Lebensverlauf stabil und haben einen prägenden Einfluss auf Einstellungen und Verhaltensweisen
Die Annahme von Generationen- bzw. Kohorteneffekten ist an zwei Voraussetzungen geknüpft: Erstens muss es eine Phase im Leben eines Menschen geben, in „der die für das spätere Leben zentralen, weitgehend stabilen Grundorientierungen erworben werden“ (Arzheimer 2006, S. 321). Dies wird als formative Phase bezeichnet (Esser 1999b, S. 268). Zweitens muss es möglich sein, abgrenzbare Zeiträume zu definieren, in denen die Einstellungen der Menschen nachhaltig geprägt wurden.
Bei Kohortenuntersuchungen sind allerdings nicht nur Kohorteneffekte, sondern auch Lebenszyklus- und Periodeneffekte zu unterscheiden. Schließlich sind in der Empirie alle drei Effekte zu beobachten. Mit Kohorteneffekten sind systematische Unterschiede zwischen den Kohorten gemeint. Personen der Nachkriegsgeneration könnten beispielsweise gegenüber der Politik grundsätzlich positiver eingestellt sein als Angehörige der Kriegsgeneration, da sie in einer Phase des wirtschaftlichen Aufschwungs und des Friedens aufgewachsen sind. Lebenszykluseffekte – häufig auch Alterseffekte genannt – sind systematische Zusammenhänge zwischen den interessierenden Merkmalen (hier: Bewertung der Politik) und der seit dem Startereignis (hier: Geburt) verstrichenen Zeit (hier: das Alter der Person). Die Bewertung der Politik könnte auch Schwankungen im Lebensverlauf unterliegen. Möglicherweise sind jüngere und ältere Menschen gegenüber der Politik skeptischer eingestellt als Personen mittleren Alters. Bei Periodeneffekten handelt es sich um direkte Auswirkungen besonderer Ereignisse zu einem bestimmten Zeitpunkt. Periodeneffekte sind unmittelbare Anpassungen an aktuelle Ereignisse und Vorkommnisse, die alle Menschen unabhängig von Alter und Kohortenzugehörigkeit in gleicher Weise erfassen. Ein solches Ereignis könnte in Deutschland – mit Blick auf die Bewertung der Politik – die deutsche Wiedervereinigung gewesen sein
Bei einer Untersuchung müssen jetzt Alters-, Perioden- und Kohorteneffekte analytisch und empirisch getrennt werden. Solche Analysen werden in der Literatur als APK-Analysen bezeichnet, da sie Auskunft über die relativen Effekte von Alter (A), Periode (P) und Kohortenzugehörigkeit (K) auf die jeweils interessierende aV geben.
Paneldesign: Als Panel werden Untersuchungsanordnungen bezeichnet, die an denselben Untersuchungseinheiten (in der Regel Personen) dieselben Merkmale (mit derselben Operationalisierung) zu verschiedenen Zeitpunkten erheben. Die einzelnen Datenerhebungen werden auch als Erhebungswellen oder einfach als Wellen bezeichnet. Bei einem Panel werden – analog zu einem Trenddesign – die relevanten Merkmale mehrmals erhoben. Bei einem Trenddesign erfolgt die Erhebung allerdings an verschiedenen, bei einem Panel an gleichen Untersuchungseinheiten. Da bei einem Trenddesign die Erhebungen an verschiedenen Objekten vorgenommen werden, können nur Veränderungen in der Gesamtheit der Gruppe festgestellt werden. Bei einem Paneldesign können durch die mehrfache Befragung einer Person auch Veränderungen bei einer Person beobachtet werden. Diese zwei Arten der beobachtbaren Veränderung werden als interindividuell und intraindividuell bezeichnet.
Intraindividuell bezeichnet die Veränderung einer Person auf einem Merkmal zwischen den Zeitpunkten der Messung. Diese Veränderung wird auch interne Fluktuation oder „turnover“ genannt. Eine interindividuelle Veränderung bezieht sich auf die Gesamtheit der beobachteten Personen. Eine solche Veränderung wird als Nettoveränderung oder auch als „net change“ bezeichnet
Dabei sind zwei typische Probleme von Paneldesigns charakteristisch: Panelmortalität und Paneleffekte
Panelmortalität: Mit Panelmortalität ist der Anteil der Personen gemeint, die im Verlauf eines Panels ausfallen. Panelmortalität hat verschiedene Ursachen: Personen können sterben, umziehen oder einfach im Urlaub sein. Der häufigste Grund für eine hohe Panelmortalität ist allerdings der Verlust der Teilnahmemotivation. Die Teilnahme an einem Panel ist freiwillig und häufig verlieren die Befragten über die einzelnen Wellen das Interesse an der Erhebung. Das Ausmaß der Panelmortalität variiert dabei in Abhängigkeit von der Anzahl der Wellen, dem Zeitabstand zwischen den Wellen und der sogenannten Panelpflege. Mit Panelpflege sind alle Maßnahmen gemeint, um die Panelmortalität möglichst gering zu halten (z.B. Dankschreiben, Geschenke, Recherchieren der neuen Adresse). Panelmortalität ist vor allem deshalb problematisch, weil die Ausfälle nicht zufällig erfolgen. Die ausgefallenen Personen unterscheiden sich häufig von den im Panel verbliebenen Personen
Das zweite Problem von Panelstudien sind Paneleffekte. Damit sind Veränderungen der Teilnehmer durch die wiederholte Befragung gemeint. Diese können entstehen, wenn Personen durch die Teilnahme an der Befragung sich verstärkt mit Themen der Erhebung auseinandersetzen und in Folge dessen eine Haltung zu dieser Thematik entwickeln, verändern oder festigen
Zur Verringerung typischer Panel-Probleme wurden mit dem alternierenden Panel, dem rotierenden Panel und dem geteilten Panel verschiedene Panel-Varianten entwickelt. Bei einem alternierenden Panel werden die Personen in zwei Gruppen eingeteilt, die dann abwechselnd befragt werden. Dadurch wird einerseits der Gesamtaufwand der Erhebungen verringert und andererseits lassen sich möglicherweise Ausfälle aufgrund von Belastungseffekten verringern. Beim rotierenden Panel wird zu jedem Erhebungszeitpunkt eine Teilgruppe durch eine neue Gruppe ersetzt. Beim geteilten Panel werden zwei Gruppen gebildet. Eine Gruppe „durchläuft“ eine klassische Panelerhebung und eine zweite Gruppe wird als rotierendes Panel oder als wiederholte Querschnittuntersuchung in die Erhebung aufgenommen
Zwischen den drei Designtypen existiert eine Informationshierarchie. Panelerhebungen sind informativer als Trenderhebungen und diese informativer als Querschnitterhebungen. Panelerhebungen können auch über aggregierte Trends und Trenderhebungen über Querschnitte informieren, während die umgekehrte Relation nicht gilt
„Unter Grundgesamtheit ist diejenige Menge von Individuen, Fällen, Ereignissen zu verstehen, auf die sich die Aussagen der Untersuchung beziehen sollen und die im Hinblick auf die Fragestellung und die Operationalisierung vorher eindeutig abgegrenzt werden muss.“
Die Grundgesamtheit einer Untersuchung muss möglichst exakt beschrieben werden. Diese Beschreibung besteht aus einem räumlichen, einem sachlichen und einem zeitlichen Definitionsteil (von der Heyde 2014a, S. 25). Der räumliche Definitionsteil bezieht sich auf das räumliche Gebiet der Grundgesamtheit. Bei einer Untersuchung zur Bundestagswahl wäre beispielsweise das Gebiet der Bundesrepublik Deutschland und bei einer Studie zur lokalen Wahlbeteiligung das jeweilige Gemeindegebiet das zugrundeliegende räumliche Gebiet. Der sachliche Definitionsteil bezieht sich bei einer Studie zur Wahlbeteiligung (in der Regel) auf die wahlberechtigte Bevölkerung. Der zeitliche Definitionsteil konkretisiert unter anderem den Erhebungszeitraum. Dies stellt bei einer Befragung eine besondere Herausforderung dar, da sich die Bevölkerung ständig verändert. Bei einer Wahlstudie könnten dies beispielsweise alle Personen sein, die zu einem bestimmten Stichtag wahlberechtigt sind und in Privathaushalten leben
Vollerhebung: Bei einer Vollerhebung werden empirische Informationen aller Untersuchungsobjekte der Grundgesamtheit erhoben. Bei einer Befragung der Studierenden der FernUniversität in Hagen werden beispielsweise alle (aktuell) eingeschriebenen Studierenden befragt. Insbesondere bei einer überschaubaren Grundgesamtheit bietet sich häufig eine Vollerhebung an. Eine solche Vollerhebung hat den Vorteil, dass „die gesamte Verteilung der Merkmale ihrer Elemente bekannt ist“. Beschreibende Lagemaße – z.B. Modus, Median, Mittelwert – können für die Grundgesamtheit berechnet werden. Bei einer Teilerhebung müssen diese Merkmale einer Grundgesamtheit geschätzt werden. Solche Schätzungen sind immer mit einem „Fehler“ behaftet, das heißt, der geschätzte Wert weicht mehr oder weniger vom „wahren Wert“ ab. Basiert die Teilerhebung auf einem zufälligen Auswahlverfahren dann kann die Abweichung zwar berechnet werden, aber bei einer Vollerhebung existiert die Abweichung vom „wahren Wert“ überhaupt nicht.
Vollerhebungen haben allerdings mehrere Nachteile. Erstens die Kosten. Je größer die Grundgesamtheit, desto höher die Kosten.
Zweitens die erforderliche Zeit. Eine Befragung von 60.000 Personen dauert erheblich länger als eine Erhebung von 200 Angestellten.
Drittens kann eine Vollerhebung auch destruktiv sein. Bei einer vollständigen Qualitätskontrolle einer Whiskyproduktion, könnte die entsprechende Destillerie zeitgleich Insolvenz anmelden.
Viertens kann eine Teilerhebung präzisere Ergebnisse ermöglichen als eine Vollerhebung. Bei einer Teilerhebung kann möglicherweise besonders geschultes Personal eingesetzt werden. Dadurch werden Erfassungsfehler verringert
Teilerhebung: Bei einer Teilerhebung werden nur bei einer Teilmenge der Grundgesamtheit die empirischen Informationen erhoben. In der Literatur finden sich folgende begriffliche Unterscheidungen: Grundgesamtheit, Auswahlgesamtheit und Stichprobe.
Die Grundgesamtheit – häufig auch als angestrebte Grundgesamtheit bezeichnet – umfasst alle Elemente, über die Aussagen beabsichtigt sind. Die Auswahlgesamtheit umfasst alle Elemente, die eine Chance haben, in die Stichprobe zu gelangen. Im Idealfall ist die Auswahlgesamtheit mit der Grundgesamtheit deckungsgleich. In der Forschungspraxis sind mit Overcoverage und Undercoverage allerdings zwei Probleme zu unterscheiden.
Overcoverage bezeichnet die Menge an Untersuchungsobjekten, die theoretisch in die Stichprobe gelangen kann, aber eigentlich gar nicht zur Grundgesamtheit gehört. Bei einer Wahlstudie sind dies beispielsweise Personen, die noch nicht volljährig und deshalb auch nicht wahlberechtigt sind. Mit Undercoverage sind Elemente gemeint, die eigentlich eine Chance haben sollten, in die Stichprobe zu gelangen, aber faktisch nicht in der Auswahlgesamtheit repräsentiert sind. Bei einer Online-Erhebung sind das beispielsweise Personen, die zwar zur Grundgesamtheit gehören, aber keinen Internetanschluss haben. Wenn in einer Auswahlgesamtheit Untersuchungsobjekte vorhanden sind, die nicht zur Grundgesamtheit gehören, dann wird von Overcoverage gesprochen. Wenn in der Auswahlgesamtheit Elemente der Grundgesamtheit nicht berücksichtigt wurden, dann spricht man von Undercoverage.
Nach der Durchführung eines Auswahlverfahrens liegt eine Stichprobe vor. Eine Stichprobe ist eine Auswahl von Elementen aus der Auswahlgesamtheit. Dabei wird zwischen Auswahl- und Erhebungseinheiten differenziert. Auswahleinheiten sind Einheiten, auf die sich das Auswahlverfahren (Auswahlplan) konkret bezieht. Erhebungseinheiten sind Einheiten, bei denen die Informationen konkret erhoben werden. Ein Beispiel: Bei einer Studie zu den mathematischen Kompetenzen der Schüler in Nordrhein-Westfalen bilden zunächst alle Schulen die Grundgesamtheit. Aus dieser Grundgesamtheit werden Schulen ausgewählt. In diesem Fall stellen die Schulen die Auswahleinheiten dar, die mathematischen Kompetenzen werden allerdings mittels eines standardisierten Tests bei den Schülern erfasst. Die Schüler sind entsprechend die Erhebungseinheiten. In diesem Beispiel unterscheiden sich Auswahl- und Erhebungseinheiten
Bei Teilerhebungen lassen sich zwei Varianten unterscheiden: Zufällige und nichtzufällige Auswahlverfahren. Die Entscheidung für ein zufälliges oder nichtzufälliges Auswahlverfahren ist in erster Linie von der konkreten Forschungsfrage abhängig. Häufig sollen die auf Basis einer Stichprobe ermittelten Befunde allerdings auf die Grundgesamtheit übertragen werden. Ein Beispiel stellt die klassische Sonntagsfrage dar: „Welche Partei würden Sie wählen, wenn am kommenden Sonntag Bundestagswahl wäre?“ Nicht die Stichprobenergebnisse, sondern der Schluss von der Stichprobe auf die Grundgesamtheit aller wahlberechtigten Bürger ist bei dieser Frage interessant. Der Schluss von einer Stichprobe auf eine Grundgesamtheit setzt zwingend ein zufälliges Auswahlverfahren voraus. Nur bei einer Zufallsstichprobe kann innerhalb gewisser Fehlertoleranzen von den Ergebnissen einer Stichprobe auf die Grundgesamtheit geschlossen werden.
Bei den zufälligen Auswahlverfahren lassen sich drei klassische Varianten unterscheiden: Die einfache Zufallsstichprobe, die geschichtete Zufallsstichprobe und die Klumpenstichprobe. In der Forschungspraxis werden die einzelnen Verfahren teilweise kombiniert. Verfahren, die Zufallsauswahlen in mehreren Stufen vornehmen, werden als mehrstufige Auswahlverfahren bezeichnet
Die einfache Zufallsstichprobe gilt als die „Mutter“ aller Stichprobenverfahren. Alle komplizierten Zufallsverfahren basieren auf der einfachen Zufallsstichprobe. Die Idee der einfachen Zufallsstichprobe basiert auf einem einfachen Prinzip. Jedes Element der Grundgesamtheit hat die gleiche Chance in die Stichprobe zu gelangen. Die Chance ist für jedes Element der Grundgesamtheit identisch und größer als 0. Wird aus einer Grundgesamtheit mit N Elementen eine Stichprobe mit n Elementen so gezogen, dass jede mögliche Stichprobe mit n Elementen dieselbe Chance zur Realisierung besitzt, dann wird das Auswahlverfahren als ,einfache Zufallsauswahl‘ (simple random sampling) und die resultierende Stichprobe als ‚einfache Zufallsstichprobe‘ (simple random sample, bzw. SRS) bezeichnet“. Dabei bezeichnet N die Anzahl der Elemente der Grundgesamtheit und n die Anzahl der Elemente der Stichprobe
Die einfache Zufallsstichprobe ist das einfachste Auswahlverfahren und wird häufig auch als Urnenmodell bezeichnet. Auf Basis der einfachen Zufallsstichprobe werden oftmals zentrale Konzepte der induktiven Statistik wie Standardfehler, Konfidenzintervalle und Signifikanztests erläutert. Die einfache Zufallsstichprobe setzt eine Liste aller Elemente der Grundgesamtheit voraus
Bei einer geschichteten Zufallsstichprobe wird die Grundgesamtheit zunächst in Untergruppen (Schichten) aufgeteilt und dann für jede dieser Gruppen eine Zufallsstichprobe gezogen. Solche Schichtenstichproben werden angewendet, wenn bei einer Untersuchung sichergestellt werden soll, dass aus jeder Schicht ausreichend Beobachtungen vorhanden sind. Die Logik der Schichtenstichprobe lässt sich an unserem Beispiel der Befragung der Studierenden illustrieren. Die Zahl der Studierenden variiert erheblich zwischen den Fakultäten der FernUniversität in Hagen. Die Fakultäten bilden jeweils eine Schicht. Innerhalb der Schicht werden dann zufällig die Studierenden für die Erhebung ausgewählt. Geschichtete Zufallsstichproben werden gezogen, indem die Elemente der Grundgesamtheit so in Gruppen (,Schichten‘, ‚strata‘) eingeteilt werden, dass jedes Element der Grundgesamtheit zu einer – und nur zu einer – Schicht gehört und dann einfache Zufallsstichproben aus jeder Schicht gezogen werden
Bei geschichteten Zufallsstichproben lassen sich zwei Varianten unterscheiden: Die proportional geschichtete Stichprobe und die disproportional geschichtete Stichprobe. Bei der proportional geschichteten Stichprobe wird bei der Stichprobenziehung der Anteil der Elemente einer Schicht an der Grundgesamtheit berücksichtigt. Bei einer Stichprobenziehung der Studierenden der FernUniversität in Hagen hätten Studierende der Fakultät für Kultur- und Sozialwissenschaften höhere Auswahlchancen als Studierende der Fakultät für Rechtswissenschaften, da der Anteil der Studierenden der Fakultät für Kultur- und Sozialwissenschaften in der Grundgesamtheit höher ist. Entspricht die Fallzahl der Schichten nicht den jeweiligen Anteilen in der Grundgesamtheit, dann handelt es sich um eine disproportional geschichtete Stichprobe
Klumpenstichprobe: „Als ,Klumpenstichprobe‘ (,cluster sample‘) wird eine einfache Zufallsstichprobe dann bezeichnet, wenn die Auswahlregeln nicht auf die Elemente der Grundgesamtheit, sondern auf zusammengefasste Elemente (,Klumpen‘, Cluster) angewendet werden und jeweils die Daten aller Elemente eines Clusters erhoben werden“
Bei solchen Klumpenstichproben sind „Verzerrungen“, sogenannte Klumpeneffekte, häufig unvermeidlich. Die Elemente eines „Clusters“ (hier: Schüler in den ausgewählten Schulen) sind ähnlicher als die Elemente zwischen den Klumpen. Klumpenstichproben sind ungenauer als einfache Zufallsstichproben, wenn sich die Elemente eines Clusters stark ähneln und die Cluster sich stark voneinander unterscheiden (Beispiel: private versus staatliche Schulen). „Verzerrungen“ auf Basis der Stichprobenziehung werden allgemein als Design-Effekt bezeichnet. Solche Design-Effekte lassen sich allerdings mit komplexen mathematischen Verfahren berechnen bzw. korrigieren
Die nichtzufälligen Auswahlverfahren lassen sich in zwei Gruppen unterteilen: „willkürliche Auswahlen“ und „bewusste Auswahlen“. Die willkürliche Auswahl wird als „Auswahl aufs Geratewohl“ bezeichnet. Für wissenschaftliche Zwecke ist dieses Verfahren völlig ungeeignet. Bei einer bewussten Auswahl werden die Fälle auf Basis theoretischer Überlegungen ausgewählt. Es existieren Kriterien der Fallauswahl und diese werden explizit offengelegt. Die bewusste Auswahl basiert allerdings nicht auf einem Zufallsmechanismus. Inferenzstatistische Verfahren können nicht angewendet werden. Deshalb sind – je nach Fragestellung – auch keine Rückschlüsse auf eine Grundgesamtheit möglich
„Willkürliche Auswahlen (,Auswahlen aufs Geratewohl‘) sind Auswahlen, bei der die Entscheidung über die Aufnahme eines Elementes der Grundgesamtheit in die Stichprobe unkontrolliert durch einen Auswahlplan nur im Ermessen des Auswählenden liegt“ (Schnell et al. 2018, S. 271). Wird eine Stichprobe nach dem Prinzip der Verfügbarkeit zusammengestellt, so wird diese Stichprobe in der englischen Fachliteratur als „Convenience Sample” bezeichnet. Eine willkürliche Auswahl erlaubt keinen Rückschluss auf eine Grundgesamtheit, da die Grundgesamtheit nicht festgelegt ist. Es werden willkürlich Passanten befragt und es völlig unklar, wen diese Passanten repräsentieren sollen. Solche Befragungen sind im besten Fall unterhaltsam, aber nicht für wissenschaftliche Aussagen geeignet.
Im Gegensatz zur willkürlichen Auswahl werden bei der bewussten Auswahl vor der Auswahl systematische Regeln formuliert, die jedoch nicht auf einem Zufallsprozess, sondern auf inhaltlichen Kriterien beruhen. Bewusste Auswahlen sind zwar „nicht geeignet, um Befunde auf die Grundgesamtheit zu verallgemeinern, können jedoch unter bestimmten Bedingungen zur Theoriebildung oder Falsifikation beitragen“ (Westle 2018b, S. 195). In der Fachliteratur werden verschiedene Varianten der bewussten Auswahl unterschieden.
Die Logik der Auswahl entscheidender Fälle basiert auf den Grundannahmen des kritischen Rationalismus. Danach sind Aussagen niemals verifizierbar, weil Wahrheit prinzipiell nicht erreichbar ist. Allerdings sind Aussagen falsifizierbar. Es kann bei einer empirischen Untersuchung geprüft werden, ob eine Aussage zutrifft oder nicht. Nach der Formulierung einer empirisch überprüfbaren Hypothese wird bei der Auswahl entscheidender Fälle nach Untersuchungseinheiten „gesucht“, die der Hypothese widersprechen. Die formulierte Hypothese muss sich folglich unter den „unwahrscheinlichsten“ Bedingungen bestätigen, um vorläufig akzeptiert zu werden. Werden solche Gegenbeispiele entdeckt, dann muss die Hypothese umformuliert und/oder präzisiert werden. Die neuformulierte Hypothese wird dann erneut einer empirischen Prüfung unterzogen.
Die Quotenauswahl – häufig auch Quotenverfahren oder Quotenmethode genannt – ist das am häufigsten nicht-zufällige Auswahlverfahren in der Marktforschung. Während bei einer Zufallsstichprobe sämtliche subjektiven Einflüsse bei der Auswahl der Befragten ausgeschaltet werden, entscheidet beim Quotenverfahren der Interviewer auf Basis vorgegebener Merkmale, wen er befragt. Die konkrete Auswahl der Befragungspersonen obliegt also den Interviewern, die aber in ihrer Entscheidung durch die Quoten eingeschränkt werden. Elisabeth Noelle-Neumann und Thomas Petersen (2005) erläutern das Ziel der Quotenauswahl: „Die wirkliche Funktion der Quoten ist: sie sollen den Interviewer zu einer Zufallsauswahl veranlassen, bei der jedes Mitglied der Grundgesamtheit praktisch die gleiche Chance hat, in die Stichprobe zu gelangen. Das Ziel besteht darin, eine Stichprobe zu erhalten, die sich ebenfalls aus 48,8 Prozent männlichen und 51,2 Prozent weiblichen Personen zusammensetzt. Selbstverständlich können bei einer solchen Stichprobe nicht alle Merkmale der Grundgesamtheit berücksichtigt werden. Am häufigsten werden Geschlecht, Alter, Bildung und Berufstätigkeit verwendet
Bei einer Untersuchung von Staaten oder auch kleineren Gebietseinheiten (z.B. Bundesländern, Gemeinden) lassen sich in der vergleichenden Sozialforschung zwei Grundtypen der Fallauswahl unterscheiden: Most Similar Cases Design (MSCD) und Most Different Cases Design (MDCD).
Bei einem Most Similar Cases Design (MSCD) werden Untersuchungseinheiten (z.B. Staaten) ausgewählt, die sich in zahlreichen Eigenschaften ähnlich sind, aber sich hinsichtlich der eigentlich interessierenden unabhängigen und abhängigen Variablen unterscheiden. Ein Beispiel: Es soll der Zusammenhang zwischen Wahlpflicht (uV) und Wahlbeteiligung (aV) auf der Makroebene untersucht werden. Selbstverständlich müssen Länder mit und Länder ohne Wahlpflicht ausgewählt werden, um einen Zusammenhang zwischen Wahlpflicht und Wahlbeteiligung überhaupt untersuchen zu können. Neben der Wahlpflicht gibt es aber natürlich noch andere Merkmale auf der Makroebene, die einen Einfluss auf die Wahlbeteiligung haben können (z.B. Wahlsystem, Regierungssystem, politische Kultur). Bei einem MSCD-Design sollten sich die ausgewählten Länder möglichst nur im Hinblick auf die interessierende unabhängige Variable (hier: Wahlpflicht) unterscheiden, alle anderen möglichen Einflussfaktoren (z.B. Wahlsystem, Regierungssystem, politische Kultur) sollten möglichst ähnlich sein.
Bei einem Most Different Cases Design (MDCD) werden möglichst unterschiedliche Untersuchungseinheiten (z.B. Staaten) für den Vergleich ausgewählt. Ausgangspunkt ist meist eine Individualhypothese, zum Beispiel „Postmaterialisten wählen eher grüne Parteien“. Dieser Zusammenhang wird in einem Kontext (z.B. Deutschland) untersucht. Wird der Zusammenhang bestätigt, folgt ein weiterer Test. Ideal wäre, wenn sich der Zusammenhang in möglichst vielen Systemen bestätigen würde. Aus forschungspraktischer Perspektive kann der Zusammenhang allerdings nicht in allen Kontexten und zu allen Zeitpunkten untersucht werden. Anstatt den bestätigten Zusammenhang also in einem ähnlichen Kontext einem weiteren Test zu unterziehen, sollte sich die Beziehung in möglichst unterschiedlichen Staaten bewähren
Auswahlverfahren in der Forschungspraxis: In der Forschungspraxis basieren die Auswahlverfahren für Personen in den seltensten Fällen auf der einfachen Zufallsstichprobe. Dafür gibt es einen einfachen Grund: Meist existiert keine vollständige „Liste“ der Grundgesamtheit. Weder das Statistische Bundesamt noch eine andere Organisation verfügt beispielsweise über eine komplette (und vor allem aktuelle) Liste der Einwohner der Bundesrepublik Deutschland oder der wahlberechtigten Bevölkerung in Deutschland. Deshalb basieren Stichprobenziehungen in der Forschungspraxis meist auf mehrstufigen Auswahlverfahren. Drei klassische Auswahlverfahren für Befragungen:
ADM ist die Abkürzung für „Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V.“ (www.adm-ev.de). Als Wirtschaftsverband vertritt der ADM die Interessen der privatwirtschaftlichen Markt- und Sozialforschungsinstitute in Deutschland. Der Arbeitskreis stellt seinen Mitgliedern ein Stichprobensystem zur Verfügung, das diesen erlaubt, zufällige Stichproben der Privataushalte und der darin wohnenden Personen in Deutschland zu erstellen. Bei allen drei Schritten wird eine zufällige Auswahl angestrebt, um auf Basis inferenzstatistischer Methoden Rückschlüsse von der Stichprobe auf die Grundgesamtheit ziehen zu können.
Der erste Schritt des ADM-Designs für persönliche Befragungen ist die Festlegung des Gebiets. Das bewohnte Gebiet der Bundesrepublik Deutschland wird durch möglichst gleich große und in der inneren Struktur möglichst homogene Teilflächen abgebildet. Diese Teilflächen werden Sample Points bezeichnet. „Für die Bildung der Sample Points verwendet man die zur Verfügung stehenden kleinsten administrativen Flächeneinheiten bis auf Baublockebene. Dazu können inzwischen amtliche innerstädtische Gliederungen und Sachdaten systematisch herangezogen werden.“ Beim ADM-Auswahlrahmen werden etwas mehr als 53.000 solcher Teilflächen bzw. Sample Points unterschieden. Das heißt, das Gebiet der Bundesrepublik Deutschland wird in knapp 53.000 Teilflächen gegliedert. Diese Teilflächen bilden die Basis für die Konstruktion von Stichprobennetzen. Ein gesamtdeutsches Stichprobennetz setzt sich aus 258 Sample Points zusammen.
Die Auswahl der Zielhaushalte innerhalb eines Sample Points erfolgt über Random Walk (oft auch Random Route genannt). Bei Random Walk handelt es sich um eine allgemeine Begehungsvorschrift: „Das Prinzip des Random Walk basiert darauf, dass ein Interviewer zu einem vorgegebenen Startpunkt gebeten wird, von dem aus er mit Hilfe festgelegter Gehregeln (z.B. Hausnummernabwärts; bei Kreuzungen abbiegen und dabei die Straße überqueren; bei Sackgassen auf der gegenüberliegenden Seite umdrehen; etc.) in jedem x-ten (z.B. jeden dritten) Haushalt befragt.“ Mit der allgemeinen Begehungsvorschrift soll die Auswahl der Zielhaushalte durch den Interviewer möglichst eingeschränkt werden, sodass eine Zufallsauswahl der Haushalte entsteht. Für jede mögliche räumliche Situation muss eine klare Regelung existieren, damit der Interviewer zu keinem Zeitpunkt von der zufälligen Route abweicht. Bei Random Walk bzw. Random Route lassen sich zwei Varianten unterscheiden: Random Route mit Adressvorlauf und Random Route ohne Adressvorlauf. Bei einem Random Route mit Adressvorlauf übermittelt der Interviewer seine aufgelisteten Haushalte an das Erhebungsinstitut zurück. Die Liste umfasst eine zuvor festgelegte Anzahl von Haushalten, aus der dann eine zufällige Stichprobe gezogen wird. Diese Stichprobe wird anschließend von dem gleichen oder einem anderen Interviewer bearbeitet. Bei einem Random Route ohne Adressvorlauf versucht der Interviewer bereits bei der Begehung einen erfolgreichen Kontakt mit dem Zielhaushalt herzustellen und das Interview mit der Zielperson zu führen.
Der dritte Schritt des ADM-Designs sieht die zufällige Auswahl der Zielperson im ermittelten Haushalt vor. Auch die eigentliche Zielperson muss zufällig ausgewählt werden, da sonst mobile Personen (z.B. Berufstätige, jüngere Personen) eine geringe Chance haben, in die Stichprobe zu gelangen. In der Forschungspraxis lassen sich zwei Varianten der Auswahl der Zielperson in einem Haushalt unterscheiden: die Geburtstagsmethode (Last-Birthday oder Next-Birthday) und der Schwedenschlüssel.
Bei der Geburtstagsmethode wird diejenige Person im Haushalt ausgewählt, die entweder als Letzte vor dem Kontaktdatum (Last-Birthday) oder als Nächste nach dem Kontaktdatum Geburtstag hat (Next-Birthday). Beim Schwedenschlüssel findet eine systematische Auflistung der einzelnen Haushaltsmitglieder durch den Interviewer statt (z.B. alle Haushaltsmitglieder werden nach dem Alter geordnet notiert). Die Auswahl der Zielperson erfolgt dann durch eine vom Befragungsinstitut erzeugte Zufallszahl; für jeden Zielhaushalt existiert eine eigene Zufallszahl.
Telefonstichproben: Siegfried Gabler und Sabine Häder (1997) konnten zeigen, dass die klassische RLD-Methode zu verzerrten Stichproben führt. Dieses Problem löst das sogenannte Gabler-Häder-Design. Dieses Verfahren gilt derzeit als die beste Praxis bei der Ziehung von Telefonstichproben. Beim Gabler-Häder-Design werden zunächst alle im Telefonbuch registrierten Rufnummern gesammelt. Diese werden pro Ortsnetzbereich (Vorwahlen) der Größe nach geordnet. Es werden anschließend Blöcke vom Umfang 100 gebildet (z.B. 0 bis 99, 100 bis 199). Können die vorhandenen Rufnummern in einen Block eingeordnet werden (z.B. die Rufnummer 02331/40123 in den Block 40100-40199), dann werden Rufnummern von 02331/40100 bis 02331/40199 generiert.
Die Grundannahme ist, dass sich die nicht gelisteten Telefonnummern ebenfalls innerhalb der mit mindestens einer Rufnummer eingetragenen Blöcke befinden. Die Menge aller dieser Ziffernfolgen in allen Ortsnetzbereichen bildet schließlich den Auswahlrahmen für Telefonbefragungen. Blöcke, in denen keine Rufnummer im Verzeichnis gelistet ist, werden aussortiert. Die steigende Zahl an Haushalten, die ausschließlich über eine Mobilfunkrufnummer erreichbar sind, hat die Praxis der Stichprobenziehung bei telefonischen Befragungen verändert. Die Lösung bietet ein Dual-Frame-Ansatz.
Bei einer Dual-Frame-Erhebung werden die Auswahlrahmen „Festnetz“ und „Handy“ kombiniert. Solche aus zwei Auswahlgrundlagen zusammengestellten Stichproben werden als Dual-Frame-Stichproben bezeichnet. Beim Auswahlrahmen „Festnetz“ handelt es sich zunächst um eine Haushaltsstichprobe, da jedes Haushaltsmitglied den Hörer abnehmen kann. Innerhalb des Haushalts wird dann über die Last-Birthday- oder Next-Birthday-Methode die Zielperson ausgewählt. Beim Auswahlrahmen „Handy“ handelt es sich eher um eine Personenstichprobe, da die meisten Personen ihr Handy überwiegend selbst nutzen
Registerstichprobe: Das bekannteste Beispiel für eine Registerstichprobe ist eine Einwohnermeldeamtsstichprobe (EWA-Stichprobe). Dabei handelt es sich um eine Stichprobe auf der Basis von Adressen aus Einwohnermeldeämtern (von der Heyde 2014b, S. 191). Gegenüber dem ADM-Design mit Random Route und Schwedenschlüssel bzw. Geburtstagsmethode hat eine solche Stichprobe zwei Vorteile.
Erstens ist der Einfluss der Interviewerin auf die zufällige Auswahl des Zielhaushalts bzw. der Zielperson praktisch ausgeschlossen. Es existiert eine zufällig generierte Liste mit Personen, die befragt werden sollen. Zweitens stehen mit der Liste demographische Angaben über die befragten Personen zur Verfügung (z.B. Geschlecht, Alter), sodass die Arbeit der Interviewer besser kontrolliert werden kann.
Allerdings sind mit einer EWA-Stichprobe auch vier Nachteile verbunden. Erstens sind solche Register nicht völlig aktuell. Umzüge oder Sterbefälle werden erst nach einer gewissen Zeit im Melderegister realisiert. Zweitens sind solche Register auch nicht völlig fehlerfrei. Nicht alle Einwohner einer Stadt haben sich ordnungsgemäß angemeldet oder wieder abgemeldet. Drittens ist der Aufwand für eine Einwohnermeldeamtsstichprobe deutlich höher als Random Route und Schwedenschlüssel. Für die Adressenlieferung ist das Institut auf die Kooperation mit der Gemeinde angewiesen. Dabei ist zum einen nicht jede Gemeinde bereit, solche Adressen zur Verfügung zu stellen, zum anderen wird die Adresslieferung mit teilweise sehr hohen Gebührenforderungen verknüpft. Manchmal werden die Adressen auch in kaum nutzbaren Formaten geliefert, sodass erheblicher Aufbereitungsaufwand anfällt. Schließlich können zwischen der Anforderung der Stichprobe und der Lieferung der Daten durchaus mehrere Monate vergehen. Dies wirkt sich natürlich ungünstig auf die Datenqualität aus. Viertens ist eine Registerstichprobe nur möglich, „wenn das Projekt, für das sie benutzt werden soll ,im öffentlichen Interesse‘ liegt
Nach der Festlegung des Forschungsdesigns und der Entscheidung für ein Auswahlverfahren muss die Datenerhebung konkretisiert werden. Traditionell werden drei Varianten der Datenerhebung unterschieden: Befragung, Beobachtung und Inhaltsanalyse
Befragung: Befragung ist zunächst ein loser Oberbegriff für eine Vielzahl an Befragungstechniken. Während qualitative Sozialforscher häufig Befragungsarten mit geringer Standardisierung nutzen (z.B. Leitfadeninterviews), wird innerhalb der quantitativen Sozialforschung eine möglichst hohe Standardisierung der Befragung angestrebt. Die Standardisierung bezieht sich auf die einheitliche Formulierung der Fragen, die vorgegebenen Antwortoptionen und die Reihenfolge der Fragen. Die Regeln standardisierter Befragungen verlangen, dass jeder Befragte die gleichen Fragen in gleicher Formulierung und Reihenfolge erhält.
Bei standardisierten Befragungen werden alle Personen mit den gleichen Fragen und Antwortmöglichkeiten konfrontiert. Auch die Rahmenbedingungen einer Befragung (z.B. Interviewsituation) und die Durchführung der Befragung (z.B. Reihenfolge der Fragen, Hinweise zu einzelnen Fragen und Überleitungen) sind für alle Personen identisch. Die Standardisierung soll gewährleisten, dass unterschiedliche Antworten auf eine Frage auch tatsächlich auf unterschiedliche Merkmale, Einstellungen und Verhaltensweisen der Personen zurückzuführen sind und nicht auf variierende Bedingungen während der Befragungssituation
Befragungsmodi: Vier Formen standardisierter Befragungen werden unterschieden: Persönliche, telefonische, schriftliche und internetgestützte Interviews. Diese unterschiedlichen Befragungsarten werden auch als Befragungsmodi bezeichnet.
Persönliche Befragung: Die persönliche Befragung, häufig als Face-to-Face-Interview bezeichnet, setzt die Anwesenheit der Gesprächspartner (Interviewer und Befragter) voraus. Der Interviewer sucht die Zielperson auf und führt die Befragung in der Regel in dessen Privatwohnung durch. Die Befragung wird heute computergestützt realisiert. Der Interviewer liest die Fragen direkt vom Bildschirm des Laptops ab und die Antworten werden elektronisch erfasst. Diese Form des Interviews wird als CAPI bezeichnet (Computer Assisted Personal Interviewing). Die klassische Vorgehensweise bei einer persönlichen Befragung wird PAPI genannt (Paper-and-Pencil-Interviewing). Dabei liest der Interviewer die Fragen von einem Fragebogen vor und trägt die Antwort mit einem Stift ein.
Telefonische Befragung: Die telefonische Befragung setzt voraus, dass die Zielperson über einen Telefonanschluss verfügt bzw. telefonisch erreichbar ist. Telefonische Befragungen werden praktisch immer von zentralen Telefonstudios als computergestützte Telefoninterviews durchgeführt. Diese Variante der Befragung wird CATI bezeichnet (Computer Assisted Telephone Interview). Die Wahl der Telefonnummer, die Interviewfragen und Antwortkategorien, die Filterführung sowie die Speicherung der Daten werden durch einen Computer realisiert
Schriftliche Befragung: Bei der schriftlichen Befragung ist kein Interviewer anwesend und die Zielperson füllt den Fragebogen selbst aus. Der Fragebogen wird als Brief verschickt. Dieser Brief enthält neben dem Fragebogen in der Regel ein Anschreiben sowie einen adressierten und frankierten Rückumschlag. Bei der schriftlichen Befragung kann die Zielperson selbst bestimmen, wann und wo sie den Fragebogen ausfüllt. Dadurch sind allerdings auch die situativen Begleitumstände für den Forscher unklar
Online-Befragung: Die Online-Befragung ist mit der schriftlichen Befragung vergleichbar, allerdings ersetzt das Internet die postalische Zustellung des Fragebogens. Die Einladung zu einer Online-Befragung kann persönlich, telefonisch, schriftlich oder auch online (via E-Mail) erfolgen. Die Bearbeitung des Fragebogens erfolgt dann online, sodass dieselben technischen Möglichkeiten wie bei computergestützten persönlichen und telefonischen Befragungen zur Verfügung stehen
Mit sozialer Erwünschtheit wird die Tendenz einer Person beschrieben, auf eine Frage nicht wahrheitsgemäß, sondern entsprechend der wahrgenommenen gesellschaftlichen Erwartung zu antworten. Befragte behaupten dann im Interview, dass sie sich bei der nächsten Bundestagswahl beteiligen, obwohl dies nicht zutrifft. Oder umgekehrt: Personen geben „sozial unerwünschtes“ Verhalten (z.B. Drogenkonsum, Diebstahl) seltener an, da dies nicht der gängigen gesellschaftlichen Norm entspricht (siehe ausführlich Diekmann 2011, S. 447- 455). Die Wirksamkeit der sozialen Erwünschtheit ist von der Befragungsform abhängig. Durch die Anwesenheit einer Interviewerin sind bei einer persönlichen Befragung stärkere Effekte durch soziale Erwünschtheit zu erwarten als bei einer postalischen Erhebung oder einer Online-Befragung. Bei einer telefonischen Befragung sollten mögliche Effekte durch soziale Erwünschtheit geringer sein als bei einer persönlichen Befragung, da der Gesprächspartner nicht unmittelbar sichtbar ist
Die Tailored Design Method (TDM) ist ein von Don Dillman et al. (2014) entwickelter Ansatz zur Optimierung von standardisierten Befragungen. Die Methode umfasst alle Schritte einer Erhebung – von der Konzeption einer Erhebung über die Formulierung von Fragen und Antworten bis hin zur praktischen Durchführung (z.B. die Papierfarbe). Die Tailored Design Method ist eine Weiterentwicklung der Total Design Methode und gibt zahlreiche Hinweise zur Durchführung von Befragungen
Fragearten: Bei geschlossenen Fragen gibt es eine begrenzte und definierte Anzahl möglicher Antwortoptionen, aus der der Befragte „seine“ Antwort auswählen muss. Geschlossene Fragen können danach unterschieden werden, ob es nur eine zulässige Antwort oder mehrere zulässige Antwortmöglichkeiten gibt. Bei halboffenen Fragen (Hybridfragen) wird – wie bei einer geschlossenen Frage – eine Anzahl möglicher Antwortoptionen vorgegeben, aus der der Befragte seine Antwort auswählen kann. Darüber hinaus enthält eine Hybridfrage eine „Restkategorie“, die meist mit „Sonstige, und zwar“ eingeleitet wird. Bei einer offenen Frage wird der Fragetext vorgelesen und der Befragte antwortet in eigenen Worten. Eine detailliertere Klassifikation von Fragearten hat Schnell (2019, S. 68) vorgelegt. Auf der Basis von Antwortvorgaben präsentiert er einen Klassifikationsbaum (siehe Abbildung 27). Auf diese Weise werden sieben unterschiedliche Fragearten unterschieden: Offene Frage, dichotome Frage, Hybridfrage, Frage mit Skalenvorgaben, Rangordnungsfrage, Mehrfachantwortfrage und Forced-Choice-Frage
Frageformulierung: Die wichtigsten Grundregeln der Frageformulierung hat Porst in zehn „Geboten“ zusammengefasst. Diese Gebote stellen grobe Faustregeln dar, um typische Fehler bei der Fragebogenkonstruktion zu vermeiden.
1. Du sollst einfache, unzweideutige Begriffe verwenden, die von allen Befragten in gleicher Weise verstanden werden! Bei einer allgemeinen Bevölkerungsumfrage sollten die einzelnen Fragen deshalb keine Fremdwörter oder schwierige Begriffe enthalten
2. Du sollst lange und komplexe Fragen vermeiden! Payne bezeichnet die Verwendung von 20 Wörtern in einer Frage als Höchstgrenze.
3. Du sollst hypothetische Fragen vermeiden! Fragen sollten nicht hypothetisch formuliert werden. Fragen nach dem Prinzip „Was wäre, wenn“ bezeichnen Schnell et al. schlicht als „unzulässig“. Porst bewertet hypothetische Fragen als vertretbar, sofern sich der Befragte schon einmal in die hypothetische Situation hineinversetzt hat
4. Du sollst doppelte Stimuli und Verneinungen vermeiden! „Wie häufig gehen Sie in Ihrer Freizeit ins Theater oder ins Kino?“ Sowohl „Kino“ als auch „Theater“ sind Freizeitaktivitäten, die aber in einer Frage nicht einfach zu beantworten sind, wenn man beispielsweise nur ins Theater, aber nie ins Kino geht. Mit „Kino“ und „Theater“ liegt ein doppelter Stimulus vor, der die Befragten überfordert. Für die Erfassung des Freizeitverhaltens müssen daher zwei Fragen gestellt werden – einmal nach der Häufigkeit des Theaterbesuchs und einmal nach der Häufigkeit des Kinobesuchs.
5. Du sollst Unterstellungen und suggestive Fragen vermeiden! Fragen sollen keine bestimmte Antwort provozieren. Deshalb ist die Frage „Haben Sie den Film ,Avatar – Aufbruch nach Pandora“ gesehen?“ besser als die Formulierung: „Avatar – Aufbruch nach Pandora war der erfolgreichste Film aller Zeiten. Haben Sie diesen Film gesehen?“. Grundsätzlich sind Fragen neutral zu formulieren. Dabei sollte auch auf stark wertbesetzte Begriffe wie Gerechtigkeit oder Verbrechen verzichtet werden.
6. Du sollst Fragen vermeiden, die auf Informationen abzielen, über die viele Befragte mutmaßlich nicht verfügen. Wie hoch ist der jährliche Etat der NASA? Wie viele Unfälle gab es im vergangenen Jahr in Deutschland? Welches Verkehrsmittel ist in Nordrhein-Westfalen am beliebtesten? Solche Fragen stellen für die meisten Befragten eine Überforderung dar, da sie nicht über die erforderlichen Informationen verfügen, um die Frage korrekt beantworten zu können.
7. Du sollst Fragen mit eindeutigem zeitlichen Bezug verwenden! Bei Fragen, die auf Verhalten oder Einstellungen innerhalb eines bestimmten Zeitraums abzielen, muss der Zeitraum klar definiert werden. Die Frage „Haben Sie in den vergangenen Wochen an einer Unterschriftensammlung teilgenommen?“ ist schlecht formuliert, da „in den vergangenen Wochen“ vage ist. Deshalb wird in der ALLBUS gefragt: „Haben Sie in den letzten 12 Monaten an einer Unterschriftensammlung teilgenommen?“ Nach Porst sind Formulierungen wie „in der letzten Zeit“, „in naher Zukunft“, „früher“ oder „in Ihrer Kinderzeit“ mehrdeutig und sollten deshalb nicht in einem Fragebogen verwendet werden.
8. Du sollst Antwortkategorien verwenden, die erschöpfend und disjunkt (überschneidungsfrei) sind! Die Antwortkategorien von geschlossenen Fragen sollten nicht überlappend, sondern disjunkt sowie erschöpfend und präzise sein. Antwortkategorien sind disjunkt, wenn sich eine Person bei einer geschlossenen Frage (ohne Mehrfachantworten) genau einer Antwort zuordnen kann. Die Frage „Wie viele Stunden pro Woche haben Sie durchschnittlich für die Lektüre der Studienmaterialien aufgewendet?“ mit den Antwortoptionen „0 bis 5 Stunden“, „5 bis 10 Stunden“, „10 bis 15 Stunden“, „15 bis 20 Stunden“ und „20 Stunden und mehr“ ist problematisch, da sich die einzelnen Antwortoptionen überschneiden.
9. Du sollst sicherstellen, dass der Kontext einer Frage sich nicht (unkontrolliert) auf deren Beantwortung auswirkt! Die einzelnen Fragen in einem Fragebogen sind nicht isoliert, sondern müssen immer im Kontext anderer Fragen betrachtet werden. Vorausgegangene Fragen können die Antworten auf nachfolgende Fragen beeinflussen. Schwarz unterscheidet dabei zwischen Assimilations- und Kontrasteffekt. Bei einem Assimilationseffekt ist die Antwort auf die zweite Frage ähnlich der Antwort auf die erste Frage, bei einem Kontrasteffekt tritt hingegen ein gegenteiliger Effekt auf: Die Antwort auf die zweite Frage wird der Antwort auf die erste Frage unähnlicher
10. Du sollst unklare Begriffe definieren! Begriffe sind dann unklar, wenn sie nicht von allen Befragungspersonen in der gleichen Weise verstanden werden (siehe Gebot 1). Wann ein Begriff unklar ist, hängt von der Personengruppe ab, die die Frage beantworten soll. Sicherlich können bei einer Befragung von Allgemeinmedizinern Begriffe wie Hypertonie, Angina pectoris oder Synkope eher vorausgesetzt werden als bei einer Befragung der allgemeinen Bevölkerung
Antwortvorgaben:
In einem Überblicksartikel formuliert Franzen (2019, S. 844) sechs Fragen, die bei der Konstruktion von Antwortskalen zu beantworten sind (siehe auch Porst 2014a, S. 77-97): 1. Wie viele Antwortkategorien soll die Skala enthalten? 2. Sollte eine gerade oder ungerade Anzahl verwendet werden? 3. Ist die Beschriftung aller Kategorien besser als nur die Bezeichnung der Endpunkte? 4. Sollte die Skalenbeschriftung bipolar oder unipolar erfolgen? 5. Sollte die Skala positiv (zustimmend) oder negativ (ablehnend) beginnen? 6. Sollte die Verbalisierung fragenspezifisch oder standardisiert vorgenommen werden?
Bei einer bipolaren Beschriftung werden Gegensatzpaare verwendet, um die Skalenendpunkte zu benennen. Beispiele für Gegensatzpaare sind „Misstrauen – Vertrauen“, „unzufrieden – zufrieden“ oder auch „lehne sehr stark ab – stimme sehr stark zu“. Bipolare Skalen werden auch zweidimensionale Skalen genannt, da die Skala von einer negativen Angabe (z.B. unzufrieden) über einen Mittelwert zu einer positiven Angabe verläuft (z.B. zufrieden). Bei einer unipolaren Beschriftung wird die Abstufung einzelner Kategorien eindimensional erreicht. Die Endpunkte einer Skala werden etwa als „vertraue überhaupt nicht – vertraue voll und ganz“, „überhaupt nicht wichtig – äußerst wichtig“ oder „überhaupt nicht zufrieden – sehr zufrieden“ bezeichnet
Drei Faustregeln sind mit auf Fragen mit Skalenvorgabe in der Literatur allerdings (weitgehend) unstrittig: Erstens sollte die Anzahl an Antwortkategorien bei 7 plus/minus 2 liegen. Allerdings haben sich bei vielen Fragen auch 11-Punkt-Skalen etabliert (z.B. Lebenszufriedenheit). Zweitens sollten die Antwortkategorien ungerade sein. Drittens sollte auf eine gleichzeitige Präsentation von verbalen Beschriftungen und numerischen Werten verzichtet werden
Pretest: Mit Pretest ist die Prüfung eines Erhebungsinstruments vor der eigentlichen Datenerhebung gemeint. Ein Pretest zielt darauf ab, die Mängel eines Erhebungsinstruments zu identifizieren, um die Qualität der Datenerhebung nicht zu gefährden. Weichbold (2019, S. 349) versteht Pretests „nicht als punktuelle Verfahren oder einmalig durchzuführende Methode (typischerweise kurz bevor ein Fragebogen ins Feld geht), sondern als eine Menge von Verfahren zur Qualitätssicherung des Erhebungsinstruments, ja des gesamten Erhebungsdesigns, die im Zuge der Fragebogenerstellung und Erhebungsplanung Anwendung finden.Drei Formen von Pretests werden unterschieden: Kognitive Interviews, Fragebewertungssysteme und Feldpretests (auch Standard-Pretest genannt). Die drei Varianten werden zu unterschiedlichen Phasen der Fragebogenentwicklung eingesetzt. Kognitive Interviews eignen sich beispielsweise dazu, die Verständlichkeit einzelner Fragen zu überprüfen. Deshalb werden kognitive Interviews in einem frühen Entwicklungsstadium des Erhebungsinstruments eingesetzt. Das Fragebewertungssystem (FBS) ist eine umfangreiche Checkliste, um die Qualität der Fragen systematisch zu überprüfen. Eine solche Checkliste wird im mittleren Entwicklungsstadium des Fragebogens genutzt. Kurz vor der eigentlichen Datenerhebung wird ein Feldpretest durchgeführt. Dabei handelt es sich um eine Testerhebung unter realistischen Bedingungen der geplanten Haupterhebung.
Nonresponse: Die Nichtantwort bzw. Nichtbeteiligung an einer Befragung wird allgemein als Nonresponse bezeichnet. Schnell (1997, S. 17) bezeichnet „das Fehlen von Daten eines Teils oder aller Variablen für die ausgewählten Einheiten einer Stichprobe als Nonresponse“. Je nach Ausmaß der fehlenden Daten wird zwischen Item-Nonresponse und Unit-Nonresponse unterschieden. Bei Item-Nonresponse hat der Befragte an der Erhebung teilgenommen und einzelne Fragen nicht beantwortet. Bei Unit-Nonresponse hat der (ausgewählte) Befragte die Teilnahme an der Befragung verweigert. Bei Unit-Nonresponse werden traditionell drei Formen unterschieden: Nicht-Erreichte, Nicht-Befragbare und Verweigerer
Bei der Datenanalyse existieren mittlerweile zahlreiche (statistische) Verfahren zum Umgang mit fehlenden Daten . Am häufigsten werden sogenannte Imputationsverfahren genutzt, bei denen die bekannten Informationen eines Befragten (z.B. Geschlecht, Alter, Bildung) zur Schätzung der fehlenden Information genutzt werden (z.B. Einkommen). Bei der einfachen Imputation wird nur ein Wert, bei der multiplen Imputation werden mehrere Werte geschätzt. Die multiple Imputation stellt dabei das Standardvorgehen dar
In der Praxis gilt die Ausschöpfung (Response-Rate) als eines der wichtigsten Merkmale zur Beurteilung der Qualität von allgemeinen Bevölkerungsumfragen. Unter Ausschöpfung wird dabei – vereinfacht formuliert – das Verhältnis der realisierten Interviews zur Anzahl der tatsächlich gezogenen Elemente aus einer Auswahlgesamtheit verstanden. Die Definition der Ausschöpfungsquote ist allerdings uneinheitlich. Deshalb bewertet Schnell die ausschließliche Angabe der Ausschöpfungsrate als Indikator für die Bewertung der Qualität einer Erhebung als „unzureichend“. Statt einer einfachen Zahlenangabe sollte ein umfassender Methodenbericht der Erhebung vorliegen, der eine Darstellung der Stichprobenziehung sowie eine detaillierte Aufgliederung aller „Ausfallursachen“ enthält
Beobachtung: Beobachtung ist „das direkte, unmittelbare Registrieren der für einen Forschungszusammenhang relevanten Sachverhalte. Bei den beobachteten Sachverhalten kann es sich um Sprache, um bestimmte Verhaltensweisen, auch um nonverbales Verhalten (Mimik, Gestik), um soziale Merkmale (Fahrzeugtyp, Kleidung, Abzeichen und ähnliche Symbole) und um geronnenes Verhalten (Schaufensterauslagen, Klingelschilder und ähnliche Dinge) handeln
Bei Häder (2019, S. 321) finden sich vier Kriterien, um eine wissenschaftliche Beobachtung von einer Alltagswahrnehmung abzugrenzen. Erstens bilden Hypothesen die Grundlage für eine wissenschaftliche Beobachtung. In den Hypothesen werden die Zusammenhänge beschrieben, die mit Hilfe einer Beobachtung untersucht werden sollen. Die wissenschaftliche Beobachtung erfüllt damit ein konkretes Ziel. Die Formulierung von Hypothesen setzt eine Auseinandersetzung mit Theorien und empirischen Befunden vor der eigentlichen Beobachtung voraus
Zweitens müssen wissenschaftliche Beobachtungen einer Form der Kontrolle unterzogen werden. Die Ergebnisse der Beobachtungen mehrerer Personen müssen verglichen oder die Beobachtung muss systematisch dokumentiert werden.
Drittens ist die Auswahl der zu beobachtenden Einheiten nach wissenschaftlichen Kriterien zu begründen.
Viertens sind wissenschaftliche Beobachtungen so zu konzipieren, dass „sie einer systematischen, intersubjektiv nachvollziehbaren Auswertung und Replikation unterzogen werden können“
Allgemein werden fünf Varianten der Beobachtung unterschieden: Teilnehmende versus nichtteilnehmende Beobachtung, offene versus verdeckte Beobachtung, Feld- versus Laborbeobachtung, strukturierte versus unstrukturierte Beobachtung sowie Fremd- versus Selbstbeobachtung
Eine Beobachtung kann offen oder verdeckt sein. Bei einer verdeckten Beobachtung ist der Beobachter als solcher nicht zu erkennen. Den beobachteten Personen ist nicht bewusst, dass ihr Verhalten beobachtet wird. Dadurch ist das Verfahren nichtreaktiv. Allerdings sind verdeckten Beobachtungen ethische Grenzen gesetzt. Bei einer offenen Beobachtung sind die Personen über die Beobachtung informiert. Offene und verdeckte Beobachtungen sind nur Endpunkte dieser Dimension. Denkbar sind auch Situationen, in denen einige Personen über die Beobachtung informiert sind, andere aber nicht.
Von einer Feldbeobachtung wird gesprochen, wenn die Beobachtung unter natürlichen Bedingungen stattfindet. Eine Beobachterin kann beispielsweise das Verhalten der Politiker bei einem Parteitag beobachten. Laborbeobachtungen finden dagegen in einer künstlich geschaffenen Umgebung statt. Solche künstlichen, das heißt gezielt hergestellten, Beobachtungssituationen finden sich häufig bei experimentellen Studien. Den Versuchspersonen wird ein Treatment verabreicht (z.B. gewalttätiges Video versus Naturfilm) und anschließend wird das Verhalten der Personen beobachtet.
Bei einer strukturierten Beobachtung wird ein Beobachtungsprotokoll oder Beobachtungsschema eingesetzt. Die zu erfassenden Sachverhalte sind vorab festgelegt. Dadurch wird die Aufmerksamkeit des Beobachters auf bestimmte Ausschnitte der Wirklichkeit gelenkt. Solche Sachverhalte können etwa die Anzahl, Dauer, Reihenfolge und Intensität der Wortbeiträge einzelner Teilnehmer bei einer Entscheidungsfindung sein. Bei einem solch strukturierten Vorgehen können die Beobachtungen verschiedener Personen miteinander verglichen und die Zuverlässigkeit einer Beobachtung ermittelt werden. Bei einer unstrukturierten Beobachtung erfolgt das Vorgehen eher unsystematisch und dem spontanen Interesse des Beobachters. Ein solches Vorgehen bietet sich beispielsweise zur Exploration eines zunächst unbekannten Forschungsgegenstands an. Zunächst werden viele Eindrücke gesammelt, um nicht relevante Kategorien zu übersehen. Diese Erfahrungen werden genutzt, um ein Beobachtungsschema zu entwickeln
Schließlich wird noch zwischen Selbst- und Fremdbeobachtung differenziert. Bei einer Selbstbeobachtung wird auf Beobachter verzichtet und die Person beobachtet sich selbst. Dies wird auch Introspektion genannt (Häder 2019, S. 326). Der Regelfall ist die Fremdbeobachtung, bei der geschulte Beobachter soziales Verhalten anderer Personen beobachten
Die grundsätzlichen Schritte sind dabei mit den Phasen des quantitativen Forschungsprozesses vergleichbar. Folgende Schritte werden unterschieden: Fragestellung und Entwicklung von Hypothesen, Operationalisierung, Entwicklung eines Kodierschemas, Auswahl der Untersuchungsobjekte, Pretest, Haupterhebung sowie Datenaufbereitung und Auswertung.
Nach Westle und Krumm (2018a, S. 304) lassen sich drei Grundformen von Beobachtungsschemata unterscheiden: Erstens Zählschemata, bei denen lediglich das Auftreten bestimmter Ereignisse verzeichnet wird, zweitens Kategorienschemata, bei denen die auftretenden Ereignisse nach weiteren Kriterien klassifiziert werden, und drittens Schätzschemata, bei denen zusätzlich die Eigenschaften der auftretenden Ereignisse einzuschätzen sind (z.B. Lautstärke bei Wortbeiträgen)
Inhaltsanalyse: Im Vergleich zu einer Befragung werden bei einer Inhaltsanalyse keine neuen Daten generiert, sondern existierende Daten dienen als Grundlage für eine inhaltsanalytische Auswertung. Entsprechend befasst sich die Inhaltsanalyse mit der systematischen Erhebung und Auswertung von Texten, Bildern und Filmen (z.B. Diekmann 2011, S. 576). Die Inhaltsanalyse muss sich dabei nicht auf den Inhalt von Texten beschränken, sondern kann auch formale Aspekte in den Blick nehmen. In Abhängigkeit von der Forschungsfrage können die Textlänge, die Verwendung von Fremdwörtern oder auch bestimmte Stilmittel (z.B. Konjunktiv) interessante Einblicke ermöglichen.
Früh (2017, S. 29) definiert Inhaltsanalyse als „eine empirische Methode zur systematischen, intersubjektiv nachvollziehbaren Beschreibung inhaltlicher und formaler Merkmale von Mitteilungen, meist mit dem Ziel einer darauf gestützten interpretativen Inferenz auf mitteilungsexterne Sachverhalte“
Vier Varianten der (quantitativen) Inhaltsanalyse werden unterschieden: Frequenzanalysen, Valenzanalysen, Intensivitätsanalysen und Kontingenzanalysen
Frequenzanalysen stellen die einfachste Variante einer Inhaltsanalyse dar. Textelemente werden klassifiziert und die Häufigkeit ihres Vorkommens wird erfasst. Im Vorfeld einer Bürgermeisterwahl könnte beispielsweise die Häufigkeit der Nennung der Kandidaten in den lokalen Tageszeitungen gezählt werden
Bei Valenzanalysen werden die Bewertungen (negativ, neutral, positiv), die im Zusammenhang mit der Nennung von interessanten Begriffen stehen, erfasst. So könnte im genannten Beispiel nicht nur die Häufigkeit der Nennung gezählt, sondern es könnten auch mögliche Bewertungen erfasst werden
Die Intensitätsanalyse stellt eine Erweiterung der Valenzanalyse dar. Dabei wird auch die Intensität von Bewertungen erfasst. Wie stark positiv oder negativ werden die Kandidaten einer Bürgermeisterwahl in der Berichterstattung bewer
Bei Kontingenzanalysen wird das Auftreten bestimmter sprachlicher Elemente im Zusammenhang mit anderen Begriffen untersucht. Im genannten Beispiel könnte beispielsweise untersucht werden, ob die einzelnen Bürgermeisterkandidaten mit anderen Kategorien (z.B. Parteien) erscheinen. Kontingenzanalysen untersuchen, ob relevante Begriffe in einem Text besonders häufig gemeinsam auftreten.
Früh (2017, S. 141-200) unterscheidet folgende Phasen einer Inhaltsanalyse: Planungsphase, Entwicklungsphase, Testphase, Anwendungsphase und Auswertungsphase.
Die Planungsphase umfasst zwei Schritte: Erstens muss die Fragestellung konkretisiert und zweitens die Grundgesamtheit und ggf. die Stichprobe festgelegt werden. Zu Beginn jeder Inhaltsanalyse muss das Untersuchungsziel präzisiert werden. Im nächsten Schritt muss die Grundgesamtheit der Elemente bestimmt werden, die als Merkmalsträger zu berücksichtigen. Schließlich muss der Erhebungszeitraum festgelegt werden. Je nach Größe der Grundgesamtheit kann eine Vollerhebung oder eine Stichprobe angestrebt werden
In der Entwicklungsphase wird das Kategoriensystem erstellt. Die Kategorien bzw. das Kategoriensystem (auch Kategorienschema genannt) sind das entscheidende Instrument einer Inhaltsanalyse. Behnke et al. beschreibt ein Kategoriensystem „als eine Liste von Merkmalen oder Eigenschaften, die die Erhebungseinheiten aufweisen müssen“. Kuckartz (2009, S. 340) unterscheidet zwischen deduktiver und induktiver Kategorienbildung. Bei einer deduktiven Kategorienbildung werden auf Grundlage theoretischer Überlegungen und/oder vorliegender empirischer Befunde Kategorien abgeleitet. Die Kategorien werden so gebildet, dass mit ihnen Hypothesen überprüft werden können, ohne zuvor das Material zu berücksichtigen. Bei einer induktiven Kategorienbildung werden die Kategorien auf Grundlage des vorliegenden Materials entwickelt.
Die Testphase umfasst bei Früh (2017, S. 155-189) die Probecodierung, die Codierschulung, die Reliabilitäts- und die Validitätsprüfung
Auf Grundlage des entwickelten Kategorienschemas können die Inhalte der Kategorien in den Texten gesucht und verschlüsselt (codiert) werden. Dabei sind die Texte zufällig auf die verschiedenen Codierer zu verteilen.
Die Daten einer Inhaltsanalyse werden aufbereitet und in einem Rohdatensatz gespeichert. In unserem Beispiel entspricht jeder codierte Bericht einem Fall im Datensatz. Die einzelnen Kategorien sind die Variablen. Die quantitative Auswertung erfolgt dann mit einem Statistikprogramm
Für eine quantitative Datenanalyse werden die Daten in einer Datenmatrix organisiert. Eine Datenmatrix entspricht einer Tabelle, die alle erhobenen Merkmale für alle Untersuchungsobjekte enthält. In einer solchen Datenmatrix werden in der Regel die Untersuchungsobjekte (z.B. Personen) in Zeilen und deren Merkmale (z.B. Geschlecht, Alter) in Spalten aufgelistet. In den einzelnen Zellen finden sich die Merkmalsausprägungen des jeweiligen Untersuchungsobjekts
Die inhaltlichen Informationen der Variablen sind in der Regel in einem Codebuch dokumentiert. Ein solches Codebuch enthält eine Variablenübersicht, die inhaltliche Beschreibung der Variablen sowie eine Erläuterung der Ziffern. Solche Codebücher werden auch als Variablenreports bezeichnet und können mit dem Datensatz heruntergeladen werden
Mit Kromrey et al. (2016, S. 217-218) lassen sich drei Prinzipien der Datensammlung unterscheiden, die unmittelbar aus einer Datenmatrix ersichtlich sind: das Prinzip der Vergleichbarkeit, das Prinzip der Klassifizierbarkeit und das Prinzip der Vollständigkeit. Das Prinzip der Vergleichbarkeit bedeutet, dass das Merkmal einer Variable für alle Untersuchungsobjekte identisch ist. Die Variable v1 erfasst beispielsweise das Geschlecht und die Variable v2 das politische Interesse der Befragten. Diese inhaltliche Bedeutung gilt für alle Befragten im Datensatz. Das Prinzip der Klassifizierbarkeit besagt, dass für jedes Untersuchungsobjekt (z.B. Personen) und jedes Merkmal (z.B. politisches Interesse) genau ein Wert existieren muss. Ein Befragter darf auf einer Variablen nicht mehrere Werte aufweisen. Das Prinzip der Vollständigkeit bedeutet, dass in einer Datenmatrix keine Zellen leer bleiben dürfen. Für jedes Untersuchungsobjekt muss für jede Variable eine empirische Information vorliegen. Bei einer Datenerhebung (z.B. Befragung) werden allerdings immer Situationen auftreten, bei denen ein Befragter die Frage nicht beantworten kann („weiß nicht“) oder nicht beantworten will (Item-Nonresponse).42 Häufig deuten Ziffern wie 9 oder 99 auf „keine Angabe“ oder „weiß nicht“ hin.
Informationen zur inhaltlichen Bedeutung der einzelnen Variablen finden sich zum einen im Codebuch, das meist als gesondertes Dokument zum Datensatz verfügbar ist, und zum anderen im Datensatz selbst. Die SPSS-Variablenansicht enthält Basisinformationen zu den einzelnen Variablen. Den einzelnen Zeilen der SPSS-Variablenansicht sind Angaben zum Inhalt der Variablen zu entnehmen. Besonders interessant ist dabei die Spalte „Beschriftung“, die inhaltliche Informationen zur Variable enthält.
Die Beschriftung einer Variable wird auch Variablenlabel genannt. Das Variablenlabel enthält Angaben, welche inhaltlichen Informationen in der Variable erfasst sind. Für ausführlichere Informationen (z.B. die konkrete Frageformulierung bei einer Befragung) ist das Codebuch erforderlich. Neben der inhaltlichen Bedeutung der einzelnen Variablen sind in der SPSS-Variablenansicht auch Informationen zu den jeweiligen Ausprägungen (Werte) einer Variable nützlich
Datenkontrolle: Insbesondere bei der eigenständigen Dateneingabe, aber auch bei der Arbeit mit Sekundärdaten, sollte vor der eigentlichen Datenanalyse eine sorgfältige Fehlerkontrolle vorgenommen werden. Mit Diekmann lassen sich drei typische Fehler unterscheiden, die relativ einfach identifiziert werden können: 1. Werte außerhalb des definierten Wertebereichs (wild code) 2. Unplausible Werte 3. Inkonsistente Werte
Wild codes, unplausible und inkonsistente Werte können mit einem Statistikprogramm leicht herausgefiltert werden. In vielen Fällen kann der Fehler nachträglich korrigiert werden (Vergleich mit dem Originalfragebogen). Falls eine solche Angabe nicht korrigiert werden kann, dann wird in der Regel ein Missing-Value-Code (z.B. 77 für „unplausible Angabe“) zugewiesen.
Datenanalyse: Bei der Datenanalyse lassen sich drei Phasen unterscheiden: Die deskriptive Beschreibung der Daten, die empirische Prüfung der Hypothesen und die Durchführung von Signifikanztests. Für diese einzelnen Phasen gibt es zahlreiche Analyseinstrumente
Bei der quantitativen Datenanalyse ist die Forscherin in der Regel mit vielen Untersuchungsobjekten konfrontiert. Solche Datenmengen überfordern die visuelle Wahrnehmungsfähigkeit der meisten Menschen. Deshalb wird bei der deskriptiven Beschreibung die große Datenmenge auf wichtige Informationen verdichtet. Dabei lassen sich Lage- und Streuungsmaße unterscheiden.
Lagemaße informieren über das „Zentrum“ einer Verteilung (z.B. Einkommen der Befragten). Besonders bekannte Lagemaße sind Modus (auch Modalwert genannt), Median und (arithmetischer) Mittelwert. Der Modus ist der häufigste Wert einer Variable in einem Datensatz. Der Median repräsentiert die „Mitte“ einer geordneten Variable. 50 Prozent der Werte liegen „vor“ und 50 Prozent liegen „nach“ dem Median. Die Bezeichnung „vor“ und „nach“ haben aber nur dann eine sinnvolle Bedeutung, wenn die Daten in eine Reihenfolge gebracht werden können. Deshalb kann der Median nur bei ordinalskalierten Merkmalen angegeben werden. Der (arithmetische) Mittelwert trifft eine Aussage über den „Durchschnitt“ des Merkmals. Er wird wie folgt berechnet: Summe der einzelnen Beobachtungswerte dividiert durch die Fallzahl. Bei der Wahl eines Lagemaßes ist das erforderliche Skalenniveau zu berücksichtigen. Die Berechnung des Mittelwerts fordert mindestens Intervallskalenniveau, der Modus kann bereits bei nominalskalierten Merkmalen berechnet werden. Beim Median muss, wie oben beschrieben, eine Ordinalskala vorliegen
Deshalb sind Streuungsmaße erforderlich, die die Variation einer Verteilung beschreiben. Bekannte Streuungsmaße sind die Varianz und die Standardabweichung. Je höher Varianz und Standardabweichung, desto größer die Streuung
Für die Untersuchung solcher Zusammenhänge gibt es zahlreiche statistische Verfahren (für eine Übersicht siehe z.B. Benninghaus 2007; Diekmann 2011, S. 703), die bekanntesten sind sicherlich Cramer’s V, Spearman’s rho und Pearson’s r. Welches Zusammenhangsmaß jeweils geeignet ist, hängt vor allem vom Skalenniveau der Merkmale ab. Wie aus Tabelle 20 zu entnehmen, ist jeweils das niedrigste Skalenniveau entscheidend. Bei zwei nominalskalierten Merkmalen bietet sich Cramer’s V an, bei zwei ordinalskalierten Merkmalen Spearman’s rho das geeignete Zusammenhangsmaß und bei zwei metrischskalierten Merkmalen kann Pearson’s r berechnet werden.
Die möglichen relevanten unabhängigen Variablen müssen auf Basis theoretischer Überlegungen und der intensiven Auseinandersetzung mit dem Forschungsstand identifiziert werden. In den Sozialwissenschaften steht unter dem Stichwort „Multivariate Analyseverfahren“ eine große Zahl von Analysetechniken zur Verfügung, um den Einfluss mehrerer unabhängiger Variablen (z.B. Bildung, Geschlecht, Alter) auf die abhängige Variable (z.B. Einkommen) schätzen zu können.
Das wichtigste multivariate Analyseverfahren in den Sozialwissenschaften ist die Regressionsanalyse. Die Bezeichnung „Regressionsanalyse“ ist ein Oberbegriff für eine große Anzahl an regressionsanalytischen Verfahren. Grundsätzlich wird bei einer Regression der Effekt einer oder mehrerer unabhängiger Variablen auf eine abhängige Variable geschätzt. Welches Regressionsverfahren für die jeweilige Fragestellung geeignet ist, hängt (unter anderem) vom Skalenniveau der abhängigen Variable ab. Ausgangspunkt ist immer die Frage: Wie liegt die abhängige Variable vor? Bei einer binären bzw. dichotomen abhängigen Variable wäre die logistische Regression eine mögliche Analysestrategie. Ein typischer Anwendungsfall ist die Arbeitslosigkeit, die nur zwei Ausprägungen hat: „Ja“ versus „Nein“. Bei einer nominalen abhängigen Variable bieten sich multinominale logistische Regressionsverfahren an. Ein Beispiel ist die Wahl einer Partei, da das Messniveau der aV (z.B. SPD, CDU, Grüne, Linke) nominal ist. Bei ordinalen Merkmalen (z.B. politisches Interesse) können ordinale Logitmodelle geschätzt werden, bei metrischen Merkmalen (z.B. Einkommen) bietet die lineare Regression eine geeignete Analysestrategie
Aus zeitlichen, finanziellen und forschungspraktischen Gründen dominieren in den Sozialwissenschaften Teilerhebungen. Aus einer Grundgesamtheit werden zufällig Untersuchungsobjekte (z.B. Personen) „gezogen“ (siehe Kapitel 10). Diese Stichprobe bildet die Grundlage für die empirische Analyse. Es werden Lage- und Streuungsmaße berechnet sowie Zusammenhänge zwischen den Merkmalen auf Basis der Stichprobendaten überprüft.
Signifikanztests: Bei einem Signifikanztest wird – vereinfacht formuliert – geprüft, ob ein in der Stichprobe gefundener Zusammenhang (sehr) wahrscheinlich auch in der Grundgesamtheit existiert. Häufig werden Signifikanztests falsch interpretiert. Mit Schnell et al. (2018, S. 413) lassen sich drei typische Anwendungsfehler unterscheiden. Ein „signifikantes“ Ergebnis bedeutet nicht, dass
es sich um einen „wichtigen“ Effekt handelt.
die „Existenz“ eines Effekts bewiesen ist.
es sich um einen „starken“ Effekt handelt.
Bei einem Signifikanztest wird lediglich geprüft, ob ein in der Stichprobe gefundenes Ergebnis (sehr) wahrscheinlich auf die Grundgesamtheit übertragen werden kann. Nicht mehr, aber auch nicht weniger. Auf Basis eines Signifikanztests lässt sich beispielsweise argumentieren, dass der in der Stichprobe gefundene Zusammenhang zwischen Bildung und Einkommen (sehr) wahrscheinlich auch in der Grundgesamtheit existiert. Über die theoretische Bedeutung des Effekts bzw. des Zusammenhangs von zwei Merkmalen kann ein Signifikanztest keine Aussagen treffen
Für die Darstellung und Publikation von Forschungsergebnissen existieren verschiedene Möglichkeiten. Zu den wichtigsten Formen zählen Bericht, Vortrag, Buchveröffentlichung und Artikel in einer Fachzeitschrift
Der Bericht als Publikationsform erfüllt in erster Linie die Rechenschaftspflicht der Wissenschaftler gegenüber den Geldgebern. Ein Arbeits- und Ergebnisbericht im Rahmen eines DFG-Projekts umfasst beispielsweise maximal zehn Seiten und enthält unter anderem die Ausgangsfragen bzw. Zielsetzung des Projekts, die Entwicklung der durchgeführten Arbeiten einschließlich Abweichungen vom ursprünglichen Konzept, ggf. wissenschaftliche Fehlschläge, Probleme in der Projektorganisation oder technischen Durchführung sowie die Darstellung der erreichten Ergebnisse und Diskussion im Hinblick auf den relevanten Forschungsstand. Ein solcher Rechenschaftsbericht ist keine Publikation im eigentlichen Sinne. Vielmehr sind einem solchen Bericht Verzeichnisse der Publikationen beizulegen, die zum Zeitpunkt der Berichterstattung erschienen oder bei Fachzeitschriften angenommen sind. Je nach Förderinstitution und Dauer des Projekts sind auch Zwischenberichte einzureichen, um die weitere Förderung sicherzustellen
Vortrag: Erste Forschungsergebnisse werden meist bei nationalen und internationalen Konferenzen präsentiert. Solche Vorträge informieren über das Projekt und vorläufige Ergebnisse, bringen Anregungen bzw. Verbesserungsvorschläge und können ein erster Schritt zu einer Publikation in einem Tagungsband oder einer Fachzeitschrift sein. Häufig umfasst ein Vortrag auch ein Konferenzpaper, das als Grundlage für eine spätere Veröffentlichung genutzt werden kann.
Buch: Die Veröffentlichung der Forschungsergebnisse in einem Buch bietet die Möglichkeit, ausführlich über das Forschungsprojekt und die Ergebnisse zu berichten. Qualifikationsarbeiten (z.B. Promotionen, Habilitationen) werden häufig in Buchform veröffentlicht
Die Publikation eines Aufsatzes in einer Fachzeitschrift ist mittlerweile die wichtigste Form der Veröffentlichung von Forschungsergebnissen. Aufsätze in Fachzeitschriften sind heute das zentrale Kommunikationsmedium der Wissenschaft. In den Naturwissenschaften gilt dies schon seit vielen Jahren, aber auch in den Sozialwissenschaften gelten Fachzeitschriften heute als unverzichtbar
Zur Bewertung von Fachzeitschriften sind zwei Kriterien heranzuziehen: Erstens die Qualitätssicherung eines Aufsatzes durch ein Begutachtungsverfahren und zweitens die Aufnahme der Zeitschrift in den Social Science Citation Index (SSCI). Die Begutachtung (review) eines Fachaufsatzes vor der Veröffentlichung stellt ein wichtiges Element der Qualitätssicherung wissenschaftlicher Ergebnisse dar. Nach Stykow et al. (2010, S. 192) gelten nur Fachzeitschriften, die ihre Beiträge bereits vor der Veröffentlichung einer Kontrolle durch Fachexperten unterziehen, als wissenschaftliche Fachzeitschriften.
Ein solches Begutachtungsverfahren wird auch als review system bezeichnet. Es gibt verschiedene Varianten der Begutachtungsverfahren, das Wichtigste ist sicherlich das Peer-Review-Verfahren. Beim peer-review-Verfahren erhalten fachspezifische Gutachter den (anonymisierten) Aufsatz und geben den Herausgebern einer Fachzeitschrift eine Empfehlung, ob der eingereichte Beitrag in der Fachzeitschrift veröffentlicht werden soll oder nicht. So wird einerseits die Qualität der einzelnen Aufsätze und zum anderen die Qualität der Zeitschrift als Ganzes gewährleistet
. Im Zusammenhang mit Begutachtungsverfahren ist dabei anzumerken, dass die Beiträge der – nicht nur bei Studierenden – wohl bekanntesten deutschsprachigen Zeitschrift „Aus Politik und Zeitgeschichte“ (APuZ) kein Begutachtungsverfahren durchlaufen
Der Impact-Faktor ist ein Indikator für die Bedeutung einer Fachzeitschrift. Vereinfacht formuliert erfasst der Impact-Faktor, wie oft Beiträge aus einer Fachzeitschrift in anderen Fachzeitschriften zitiert werden. Je größer der Impact-Faktor, desto „angesehener“ ist eine Fachzeitschrift. Der Impact-Faktor ist als Indikator für die Bedeutung einer Fachzeitschrift durchaus umstritten (z.B. Fleck 2013; siehe auch Bauer et al. 2013, S. 145), aber er bietet zumindest eine grobe Orientierung im Hinblick auf die Relevanz einer Fachzeitschrift für die jeweilige Disziplin.
Last changed7 months ago