Vad kallas en rad i ett dataset?
observation
Vad kallas en kolumnn i ett dataset?
variabel
Vad är metadata?
Information om vart datamaterial, t.ex.
vem har samlat datamaterial
hur är datamaterial insamlat
när är materialet insamlat
vad betyder variabelnamnen
hur är variablerna kodade
Vilka typer av variabler finns det?
kategoriska variabler
numeriska variabler
Vad är numeriska variabler
har en enhet (meter, kg, kronor, celcius)
har storlekar som kan jämföras
Vad är kategoriska variabler
kan avändas för att gruppera observationerna
ofta i form av text, men kan vara i form av tal
en numerisk variabel kan göras till en kategorisk variabel
Vad är ordinala variabler?
kan rangordnas, men har ingen enhet
Vad är en frekvenstabell?
redovisar antalet observationer i varje kategori
Vad visar en relativ frekvenstabell
visar andel istället för antal
Vilka diagram kan användas för kategoriska variabler
stapeldiagram
pajdiagram
pajdiagram eller stapeldiagram
pajdiagram kan vara bättre om publiken har mindre erfarenhet av statistik, medan stapeldiagram brukar föredras av tekniskt kunnig publik
i ett stapeldigaram är det lättare att se vilken grupp som är större, särskilt om staplarna star i storleksordning
Vad är areaprincipen
stapelna är proportionell till storleken som den representerar. Detta kallas areaprincipen
med vilka grafer kan numeriska variabler beskrivas?
histogram
täthetshistogram
Vad är en täthetshistogram
presenterar arean av en stapel, den andel av observationerna som ligger inom stapels intervall
Hur analyseras ett histogram
typvärde (mode)
symmetrin
extrema värden
Vad är ett typvärde?
värde av en variabel som har det största antalet observationer. Det representeras av toppen av fördelningskurvan
Vilka typ fördelningar finns det för histogram?
unimodal
bimodal
multimodal
uniform fördelning
vad heter det pa svenska och motsatsen?
skevt åt höger
motsatsen: skevt åt vänster
Vad är en outlier ?
värden som avviker från övriga observationer
Hur kan fördelningsens centrum beskrivas?
typvärde
medelvärde
median
Var ligger median, medelvärde och typvärde när fördelningen är symmetrisk?
liten skillnad
Var ligger medianen, medelvärde och typväre i en skev åt höger fördelning
(1) typvärde, (2) median, (3) medelvärde)
Vilka mått finns det för att mäta spridning?
variationsbredd,
standardavvikelse
kvartilavstånd
Vad är variationsbredden?
mäter avståndet mellan största och minsta observation
påverkas kraftigt av outliers
Vad är standardavvikelsen?
anger hur mycket observationerna avviker från medelvärdet.
SD är kvadratroten ur variansen
Vad är kvartilavstånd?
en fördelning delas upp i yfra stora kvartiler, Q1, Q2, Q3
Q1: 25%, Q2: 50%, Q3: 75%
avståndet mellan Q3 och Q1
Är Kvartilavstand eller standardavvikelse bäst för att rapporteras?
SD är bättre om det är viktigt at alla observationer betraktas
IQR är bättre om vi vill ha ett mått som inte påverkas av outliers
SD alltid med medelvärde
IDR alltid med median
Vad är en korstabell?
visar samband mellan två variabler
vad är en simultanfördelning?
delar observationerna i grupper baserat på två eller fler variabler
Vad är en marignalfördelning?
kategorisk variabel visar antalet observationer per kategori utan att vi tar någon hänsyn till den andra variabeln
Vad är en betingad fördelning?
En betingad fördelning är fördelningen av en variabel givet ett värde av en annan variabel
kolumnerna summerar till 100 (separat frekvenstbalel för varje kolumn
Hur skulle en korstabell ser ut, där fiskdiet är betingat på cancer variablen?
Vad gör en mosaic plot till skillnad av stapeldiagram ?
ger enmer komplett bild av en simultan fördelning än ett vantlig stapeldiagram.
Varje ruta har en area som motsvarar andelen observationer som rutan representerar
Vilken är en vanlig metod för att avgöra samband mellan kategoriska variabler?
ställa upp hypotesom att det inte finns något samband
om det stämmer borde fördelningen mellan variablerna vara slumpmässig
Vad är Simpson’s paradox?
innebär att ett samband mellan två variabler kan försvinna när datamaterialt delas in i olika grupper
Hur kan man bra illustrera numeriska variabler betingat på kaategorisk variabel
Låddiagram
Vilke fördelningsmått kan man se på en låddiagram
Q1
Q3
Kvartilavståndet
värdet av den största och mista observationen
Vad är ett glidande medelvärde
Vad är z-värdet? Och ger ett exempel
mäter avvikelsen fråm genomsnittet för en variabel mätt i antalet standardavvikelser
bra för att genomföra resultat i olika enheter
vinnare i längdhopp hoppar 1.66 standardavvikelser längre i genomsnittligae hoppet i tävlingen
vinnaren i 100 meterfinalen sprng på en tid av 2.02 standardavvikelseer mindre än genomsnittliage tiden
Vad är 0 och 1 i z-värde?
0= medelvärde
1=standardavvikelse
Hur kan formen på en normalfördelning beskrivas
bell curve
Gaussisk fördelning
I en normalfördelning hur många observationer ligger inom 1 SD, 2SD, och 3, SD från medelvärdet
1SD: 68%
2SD: 95%
3 SD: 99,7%
Hur kan samband mellan två numeriska variabler illustreras?
spridningsdiagram
Hur kallas x-variabeln
förklarningsvariabeln
oberoende variabeln
prediktor
kovariat
Hur kallas y-variabeln
responsvariabel
beroende variabel
Hur kanman mäta linjär samband mellan två numeriska variabler
korrelationskoefficient
Hur kallas osynlig variabel som kan förklara sammanhang mellan x och y
dold variabel (lurking variable)
Vad är syftet med en linjär regression?
prediktera värdet på y när vi känner till x
undersöka samband mellanx och y
vilke är regressionskoefficienterna?
intercept
lutning
Hur kallas skillanden mellan e=y-^y
residual
Vad är residualer?
mått på hur stort prediktionsfelet är för var och en av observationerna,ju mindre residualerna är desto bättre fångar modellen observationerna i vårt datamaterial
Hur kallas linjen som minimerar summan av residualer
minsta kvadratmetoden (leat squares method)
Vad är modellantaganden i linjär regression?
residualerna är normalfördelade
residualernas varians är konstant (mönster ser slumpmässig ut i residualplotten)
inga betydliga outliers
Vad är R-kvadrat
Mått på hur bra en en regressionsmodell är
berättar hur väl modellen förklarar variationen i responsvariabeln
R kvadrat anger hur stor andel av variation som en modell förklarar
Vad är SST?
Sum of Squares Total (den totala variationen i responsvariabeln)
Vad är SSE?
Sum of Squares Error
Den variationen som inte förklaras av modellen
Vad betyder r-kvadrat =1
alla observationer ligger exakt på regressionslinjen
Vad gäller i en enkel linjär regression i sambandmed R-kvadrat
R-kvadrat= korrelationskoefficient - quadrat
Vad är SSR?
SUm of Squares Regression
mäter variation av y< runt variabelns medelvärde y
varför transformerar man variabler?
så att fördelning ser någorlunda linjärt ut, för att genomföra en simpel linjör regression
Vad är exempel för transformationer i en linjär regression?
Vad är tukeys cirkel?
Vad händer med R-kvadrat i en multipel regression och vad ör adj R-kvadrat?
R-Kvadrat blir alltid större när vi lägger till ytterligare variabler
adj R-Square kan vara lösning eftersom, det ökar med R-square och samtidigt minskarmed antalet förklaringsvariabler
Hur tolkas regressionskoefficienter i en multipel linjär regression?
x ökar ed en enhet, då öar y med bk enheter givet att värdet på övriga förklarningsvariabler hålls konstant
samband mellan responsvariabel och förklaringsvariabel är betingat på de övriga förklarningsvariablerna
Vad är förutsättningar i en multipel linjär regression?
linjärt sammanhang
inga uppenbara outliers
residualernas varians bör vara konstant
residualerna bör vara normalfördelade
Vad säger man om ett flexibel modell som är dålig generaliserbar och vad är motsatsen?
överanpassad (overfitted)
underanpassad (underfit)
Vilket är ett bra sätt för att bedöma om modellen är generealiserbar?
testa hur bra prediktionerna blir på ny data
det kan man göra genom att delar upp dataset i två delar: träningsdata och testdata
Vad är proceduren för att utvärdera en modell på testdata?
dela upp observationerna i träningsdata och testdata
anpassa regressionsmodellen med hjälp av träningsdata
utvärdera modellen med hjälp av tesdata
Med vilket mått kan man utvärdera hur väl enmodell passar testdata?
RMSE (rooted mean squared error)
ju lägre RMSE desto bättre är modellen
Vad är korsvalidering?
Metod för att utvärdera modeller som låter oss använda alla observationer både som träningsdata och testdata
man delar upp datasetet mellan träningsdata och testdata flera gånger
varje uppdelning kallas för en fold
Vad betyder inferens?
generalla slutsatser utifrån ett begränsat datamaterial kallas inferens
Vad är skillnaden mellan deskriptiv statistik och inferens?
deskriptiv statistik: beskriv data på meningsfullt sätt
inferens: dra slutsatser om världen utanför
Vad betyder population i statistisk kontext?
gruppen man är intresserad av att analysera
VVilka observationer pratar man om i samband med inferens
stickprov
Vad är en bias
snedvrider resultaten pa ett systematisk sätt
Vilka felkällor dyker upp när man dra slutsatser om en population
Bias
slumpmässiga variationer
Vad kan man göra emot bias?
slumpurval
Exempel slumpmässiga variationer
tva olika forskare försöker var för sig estimera genomsnittvikten för en viss fiskart. Resultaten kommer troligen att skilja sig at eftersom urvalet av fiskar som de hittar är olika.
Storlek Stickprov
ju större stickprov desto mindre felmarginaler
Vad är populationsparamterar? & exempel
nyckeltal som säger nagot om en population.
ftar kanvi inte mäta eller observera värdet pa en parameter
om vi betraktar Sveriges befolkning som en population, är andelen som tycker att regeringen gör ett bra jobb en populationsparameter
Vad är en observationsstudie`?
forskare jämför olika grupper, men utan att själva styra vem som ska inga i de grupper som jämförs
det kann alltsa finnas en lang rad olika faktorer som skiljer grupperna at
Vad är ett experiment
ser hur en viss faktor paverkar en responsvariabel
delatagrna födelas slumpvis
i verkligheten är experiment inte alltid möjligt att genomföra,
observation ibland enda alternativ
Zuletzt geändertvor einem Monat