Nennen Sie drei wichtige Ziele von Statistik.
Daten auf wichtige Werte reduzieren, Muster und Trends erkennen, Hypothesen testen
Beschreiben Sie kurz welche Daten in der Regel normalverteilt/poissonverteilt/binomialverteilt sind, nennen Sie Beispiele und skizzieren Sie die Verteilungen jeweils.
Nennen Sie drei Visualisierungsmöglichkeiten für kategoriale Variablen und charakterisieren Sie jede nach Verwendung für Verteilung und nach abzulesenden Daten.
Welche Visualisierungsmöglichkeit wählt man oft für kontinuierliche Variablen?
Korrelationen
Was versteht man unter Fehler 1. und 2. Art?
Fehler 1. Art werden auch als falsch-positive Ergebnisse bezeichnet. Die Nullhypothese wird verworfen, obwohl sie korrekt ist.
Fehler 2. Art dagegen nennt man auch falsch-negative Ergebnisse. Die Nullhypothese wird akzeptiert, obwohl sie falsch ist.
Erläutern Sie den Zusammenhang zwischen Frage, Hypothesen und Vorhersagen in einem Versuchsdesign.
Eine Frage kann zu mehreren Hypothesen führen, die jeweils falsifizierbar sein sollten und idealerweise selbst wiederum auf verschiedene Vorhersagen hindeuten. -> ein gutes Versuchsdesign erlaubt mir, zwischen verschiedenen Hypothesen zu unterscheiden
Beschreiben Sie die Unterschiede zwischen Korrelativen und Experimentellen Studien. Nennen Sie dabei jeweils Beispiele, Vor- sowie Nachteile und skizzieren Sie entsprechende Plots.
Erläutern Sie drei wichtige Bedingungen bei der Wahl der Messgröße.
Verwenden Sie immer eine möglichst direkte Messgröße! Die Messgröße muss zwischen Replikaten variieren, darf aber nicht zu von zu vielen Störfaktoren abhängen. Sie muss ein verlässliches Maß der Variable sein, die man eigentlich messen will.
Was versteht man unter dem Begriff Replikation im statistischen Zusammenhang? Warum ist Replikation so wichtig für statistische Test?
Man führt dieselbe Manipulation und dieselben Messungen an einer Anzahl von verschiedenen Individuen durch. Dadurch ist es möglich, Variation zwischen Individuen abzuschätzen, und statistische Tests mit hoher Aussagekraft durchzuführen.
Erklären Sie den Begriff Pseudoreplikation. Wie kann man Pseudoreplikation innerhalb seiner Behandlungsgruppen (Treatments) verhindern?
Sind die Replikate nicht unabhängig voneinander, also z.B. nah verwandt oder mit ähnlichem genetischem Hintergrund (Ameisen in einer Kolonie), untersucht man keine hinreichend unterschiedlichen Organismen, sondern Pseudoreplikate. Man kann Pseudoreplikation vermeiden, wenn man möglichst verschiedene Stichproben innerhalb jeder Behandlungsgruppe verwendet.
Wonach (3) richtet sich die Anzahl der Stichproben?
beobachtete Varianz innerhalb eines Treatments, Größe des erwarteten Effekts, zeitlicher und finanzieller Rahmen
Was müssen Sie im Falle einer Experimentellen Studie im Hinblick auf Ihre Kontrollgruppe beachten?
Die Kontrolle darf sich nur in der zu untersuchenden Variable unterscheiden.
Erläutern Sie den Begriff „confounding factors“ und beschreiben Sie deren Auswirkungen.
Störfaktoren, die sich sowohl auf die eine als auch auf die andere Versuchsgruppe auswirken. Können unter Umständen für Korrelationen und scheinbare Kausalzusammenhänge verantwortlich sein.
Welche Bedeutung hat der Begriff „Randomisierung“ im Bezug auf die Einteilung experimenteller Gruppen?
Jedes Studienobjekt sollte mit der gleichen Wahrscheinlichkeit jeder der experimentellen Gruppen zugeordnet werden. Andernfalls können Störfaktoren, wie unterschiedliche Umweltbedingungen im Vorfeld des Versuchs, statistische Fehler verursachen. Außerdem sollte die zeitliche Reihenfolge der Messungen ebenfalls zufällig erfolgen.
Fülle aus
Nennen Sie drei Annahmen parametrischer Tests.
intervallskalierte Daten, Normalverteilung der Residuen, Varianzhomogenität
Mit welchem Test kann man die Residuen auf Normalverteilung testen?
Kolmogorov-Smirnov-Anpassungstest (Abweichung von Normalverteilung bei p < 0,05)
Beschreiben Sie das Prinzip nicht-parametrischer Tests. Welche Vorteile haben nicht-parametrische gegenüber parametrischen Tests?
Den Messwerten werden über die Stichproben hinweg Ränge zugeordnet (im Beispiel: nach Größe). Danach werden die mittleren Ränge verglichen. Dafür sind allerdings weder eine Normalverteilung noch Varianzhomogenität nötig und Ausreißer haben keinen Effekt mehr.
Wie lautet eine typische Fragestellung bei einer Ereigniszeitanalyse (survival analysis)?
Erwartete Zeit bis ein bestimmtes Ereignis eintritt, z.B. der Tod.
Mit welchem Problem können Sie bei einer Ereigniszeitanalyse konfrontiert werden? Nennen Sie eine mögliche Lösung.
Problem: zensierte Daten (censored observations), da bei mindestens einem Individuum das Ereignis nicht im Beobachtungszeitraum eingetreten ist Lösung: Schätzung der Überlebenskurve und der mittleren Lebensdauer (Kaplan-Meier-Schätzer)
Welchen Test benutzen Sie, wenn sie die statistischen Unterschiede zweier Überlebenskurven ermitteln wollen? Nennen Sie mindestens zwei Voraussetzungen, die erfüllt sein müssen.
log-rank Test Voraussetzungen: beide Zufallsstichproben unabhängig, beide Datensätze sind gleich zensiert (s.o.), Proportional hazards
In welchem Fall kommt das Modell der multiplen linearen Regression (z.B. GLM = Generalised Linear Model) zum Einsatz? Nennen Sie auch ein Beispiel.
Vorhersage einer abhängigen metrischen Variable Y aus k (> oder = 2) unabhängigen metrischen Xj Bsp: Vorhersage der metabolischen Rate von Organismen aus deren Körpertemperatur und -masse
Erläutern Sie kurz das Ziel des Ordinationsverfahrens (eine explorative multivariate Technik).
Vereinfachung der Struktur des Datensatzes durch Reduzierung des n-dimensionalen Raums auf meist 2-3 Dimensionen. Die Reduzierung (Projektion) repräsentiert dann den größten Anteil der Varianz des Datensatzes.
Welche Idee steckt hinter der Hauptkomponentenanalyse (PCA)?
Ein Verfahren, indem viele Variablen zu wenigen Hauptkomponenten zusammen gefasst werden. Die künstlich erzeugten variablen sind voneinander abhängig, was für einige statistische verfahren von Vorteil sein kann.
Wie interpretiert man allgemein einen Abstandsbiplot im Vergleich zu einem Korrelationsbiplot?
Abstandsbiplot: Abstände zwischen Objekten entspricht ihrem euklidischen Abstand im n-dimensionalen Koordinatensystem, d.h. kleine Abstände entsprechen ähnlichen Speziesverteilungen und große Abstände unterschiedlicheren Speziesverteilungen.
Korrelationsbiplot: Erklärt Beziehungen zwischen Spezies über Speziesvektoren. Interpretation von Winkeln über Vektoren.
Zuletzt geändertvor 2 Jahren