Vad är ett väntevärde?
sannolikhetsfördelningens centrum.
punkt där sannolikhetsfördelning ’balansera
påverkas mycket av fördelningens ’svansar’
Det teoretiska genomsnittet av en slumpvariabel över oändligt många försök. Det beräknas med sannolikhetsfördelningen.
Vad är en t-fördelning
En t-fördelning (Student’s t-fördelning) är en sannolikhetsfördelning som ofta används inom inferentiell statistik, särskilt vid hypotesprövning och konfidensintervall för små stickprov. Den liknar normalfördelningen men har tyngre svansar, vilket gör den mer robust när stickprovsstorleken är liten.
Om stickprovsstorleken är stor (n≥30n \geq 30n≥30) → ttt-fördelningen liknar normalfördelningen.
Om stickprovsstorleken är liten (n<30n < 30n<30) → ttt-fördelningen har mer utspridda svansar, vilket tar hänsyn till osäkerheten från det lilla stickprovet.
Vad är väntevärde på engelska?
expected value:
E(X) = E(X)= ∑x*P(x)
Vad kan en variabel vara?
diskret: (utfallen går att räkna, även 0,1,2, … till oändligt)
kontinuerlig (utfallen går inte att räkna, många decimaler
Ger exempel för diskret och kontinuerlig variabel
diskret: X= antal prickar på tärning
kontinuerlig: X= temperatur (med decimaler)
Vad är stora bokstäver X?
slumpvariabel
Vad är små bokstäver?
numeriska utfall
faktiska värden som slumpvariabeln kan anta vid en specific observation
Vad är symbolen för väntevärde?
μ
Vad är symvol för variansen?
σ2
var ligger i en graf väntevärde och standardavvikelse?
För vad används täthetsfunktion?
för att beräkna sannolikheter
Vad är Summan av oberoende slumpvariabler?
Var(X+Y) = VAR(X) + Var(Y)
Vad är korrelation?
linjärt beroende mellan variabler
Vad är kovarians?
linjärt beroende mellan slumpvariabler
Cov(X,Y) = E((X-μ) (Y-ν)
Hur uttrycker sig positiv kovarians
variansen för summan större än vid oberoende
Hur uttrycker sig negativ kovarians?
variansen för summan mindre än vid oberoende
Vad är ett utfallsrum?
mängden av möjliga utfall, exempel för en tärning skulle det vara {1,2,3,4,5,6}
Vad är ett utfall?
Specifikt värde i utfallsrummer, för en tärning exempelvis 3
Vad är en händelse?
Samling av utfall; varje utfall är också en händelse, exempelvis udda antal prickar för en tärning, A={1,3,5}
Hur kan jag visar att observationer är oberende?
P(A∩B) ≠ P(A)*P(B)
Vad betyder väntevärdesriktig?
En väntevärderiktig estimator är en estimator vars väntevärde är lika med det samma värdet av parametern som ska skattas
Vad menar vi när vi säger att intervallet täcker det sanna värdet av µ med 95% säkerhet? Varför säkerhet och inte sannolikhet?
om vi upprepar experimentet många gånger och beräkna ny konfidensintervall varje gång, så kommer 95% av denna intervall innehålla sanna värdet av µ
det är inkorrekt att säga sannoikhet eftersom sanna värdet av µ är okänd konstant, som antigen innefattas i intervallet eller inte
Vilka är förutsättningar för normalapproximerad samplingfördelning?
oberoende svar
stickprovet utgör mindre än 10 %
np & nq >= 10 (Gruppengröße minst 10)
Vad är en prediktionsintervall?
Ett prediktionsinterval tar hänsysn till både osäkerheten i skattningen av paramtrarna och osäkerhäten i den framtida observation
Vad är en konfidensintervall
tar endast hänsyn till osäkerheten o skattningen av paramtrarna
Vad är ett stickprov?
Ett stickprov är en mindre, slumpmässigt eller systematiskt vald del av en population som används för att dra slutsatser om hela populationen.
Vad är en population
En population är den fullständiga grupp av individer eller objekt som en undersökning eller studie avser att dra slutsatser om.
Vad är lika sannolika utfall?
När alla möjliga utfall av ett experiment har samma sannolikhet att inträffa. Till exempel, när man singlar ett rättvist mynt är sannolikheten för krona och klave båda 50 % (1/2).
Vad är empirisk sannolikhet?
Sannolikhet som beräknas utifrån faktisk data och observationer. Den definieras som antalet gånger en händelse inträffar dividerat med det totala antalet försök. Till exempel, om du singlar ett mynt 100 gånger och får krona 48 gånger, är den empiriska sannolikheten för krona 48/100 = 0,48.
Vad är subjektiva sannolikheter?
Sannolikhet som baseras på en persons egna bedömningar, erfarenheter eller intuition snarare än på matematiska beräkningar eller observationer. Till exempel, en sportexpert kan bedöma att ett visst lag har 70 % chans att vinna en match baserat på tidigare prestationer och känsla.
Vad är disjunkta händelser?
Disjunkta händelser har inga gemensamma element
Vad är överlappande händelser
De har gemensamma element
Vad betyder A^c
Komplementet till A inträffar när A inte intäffar. Exempelvis:
för tärningar A={1,3,5}, A^c={2,4,6}
Vaad är en snitthändelse?
när både A och B inträffar; P(A∩B)
Vad är en unionhändelse?
När A och eller B inträffar , A∪B
Hur beräknas P(A∩B), när A och B ör oberoende?
P(A)*P(B)
Hur beräknas P(A∪B) om A och B är disjunkta?
P(A) +P(B)
Vad är Komplemtentsreglen?
A och A^c kan inte inträffa samtidigt, därfär maste en inträffa:
-> P(A^c)=1-P(A)
Vad betyder P(B|A)?
B inträffar givet att A har inträffat
Hur beräknar man betingad sannolikhet?
P(B|A) = P(A∩B) /P(A)
Vad är snittsannolikhet, marginell sannolikhet och betingad sannoliket?
Snittsannolikhet: P(A∩B)
Marginell sannolikhet: P(A)
Betingad sannolikhet: P(B|A)
I vilket fall är A och B oberoende händelser?
P(B|A) =P(B)
Vad är en slumpvariabel?
mäter numeriskt värde från slumpmässigt försök
slumpvariabel skriver man med stora bokstäver X
numeriska utfall med små bokstäver x
Vad är en sannolikhetsfördelning
Den visar annolikheterna för alla möjliga utfall av x P(x)=1
Vad är skillnaden mellan väntevärde och medelvärde?
Medelvärde:
Används för att beskriva den genomsnittliga värdemängden i ett givet dataset.
Beräknas som summan av alla observationer delat med antalet observationer
Väntevärde:
Ett teoretiskt mått som beskriver det genomsnittliga utfallet av en stokastisk variabel i det långa loppet.
Beräknas med sannolikhetsfördelningen
Väntevärdet är ett teoretiskt medelvärde som kan uppskattas med hjälp av ett stort antal observationer.
Vad är symbolen för varians
σ2 (sigma kvadrt)
Vilka är paramterarna i en normalfördelning?
sigma
my
Vad betyder att skifta en slumpvariabel?
Att skifta en slumpvariabel innebär att vi adderar en konstant ccc till den:
Vad är skillnaden mellan sannolikhetsfunktion och täthetsfunktion?
För diskreta variabler används en sannolikhetsmassfunktion (PMF), där sannolikheter ges direkt som P(X=x)P(X = x)P(X=x), medan en täthetsfunktion för en kontinuerlig variabel anger sannolikhet per enhet längd, och sannolikheter beräknas via integraler.
Vad betyder skala en slumpvariabel?
Att skala en slumpvariabel innebär att vi multiplicerar den med en konstant a.
Hur kan man beskriva standardiseing
fran allmän normalfördelning tills tandard genom skift och skalning
Kovariansen mäter hur två slumpvariabler varierar tillsammans. Den beräknas som:
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]
Om X är större än sitt medelvärde och Y också är större än sitt medelvärde samtidigt → positivt bidrag till kovariansen.
Om X är större än sitt medelvärde medan Y är mindre än sitt medelvärde (eller tvärtom) → negativt bidrag till kovariansen.
Nackdel med kovarians:
Kovariansens storlek beror på enheterna i XXX och YYY, vilket gör det svårt att tolka värdet direkt.
Därför används ofta korrelation istället.
Korrelationen är en normaliserad version av kovariansen och mäter styrkan och riktningen på sambandet mellan X och Y
ρX,Y=σXσYCov(X,Y)
Vad är antaganden i ett Bernoulliförsök
bara tva möjliga utfall, lyckas/misslyckas, binär variabel
samma ssannolikhet för lyckas i alla försök
oberoende
Exempel: Santsingling (münzwurf)
Vad betyder lyckas eller misslyckas i ett Bernoulli försök?
ingen mänsklig värdering
Vad är en geometrisk fördelning
geometrisk slumpvariabel fran Bernoulliförsök
hur manga Bernoulliförsökk tills första lyckde?
antal försök är slumpmässiga
En geometrisk fördelning beskriver sannolikheten för antalet försök som krävs för att få den första framgången i en serie oberoende Bernoulli-försök med sannolikhet p för framgång.
Vad är en Binominalfördelning?
Hur manga lyckade i n Bernoulli försök med sannolikhet p
antal försök och n är förbestämt och fixerat
antal lyckade är slumpmässigt
Vilka parametrar finns det i en binominalfördelning
X ~Bin(n,p)
X är binominalfördelad med parametrar n och p
Vad är en binominalfördelad variabel
Det betyder att en binomialfördelad stokastisk variabel är summan av n oberoende Bernoulli-försök, där varje försök har två möjliga utfall (framgång eller misslyckande) med sannolikhet ppp för framgång.
Vilka exempel finns det för binominalfördelning
Exempel 1 n=3 med resultat x1=1, X2=1, X3=0
X=1+1+0=2
vad är en kontinuitetskorrektion?
Kontinuitetskorrektion är en justering som används när man approximativt ersätter en diskret sannolikhetsfördelning (som binomialfördelningen) med en kontinuerlig fördelning (som normalfördelningen). Justeringen innebär att man adderar eller subtraherar 0,5 till det diskreta värdet för att bättre matcha sannolikheten i den kontinuerliga modellen.
Vad är en likförmig fördelning?
varje värde är lika sannolikt
bade kontinuerlig och diskreta
Vilka fördelningar finns det?
likförmig fördelning
normalfördelning
Poisson fördelning
Vilka är antagande i en Poissionfördelning
Oberoende händelser
Konstant medelhastighet –Händelser inträffar med en konstant genomsnittlig frekvens λ\lambdaλ per tidsenhet eller per enhet av något annat mått
Inte två händelser samtidigt – Sannolikheten att mer än en händelse inträffar i ett mycket litet tidsintervall är försumbar.
diskreta variabler
Vilka exempel finns det för en Poissonfördelning?
antal buggar i en mjukvara
antal budgivare i en eBay auktion
antal besök till läkaren
Vad är väntevärdet och variansen i en possionfördelning?
väntevärdet och varians är samma:
lambda
Vad betyder maximum likelihood?
välj lambda som maximerar sannolikheten för datamaterialet
funkar för alla modeller
För vad använder man statistiska?
populationsparameter
Hur skatter man populationsväntevärdet my
med estimatorn x̄
Vad är en exempel för en undersökning?
Väljareundersökningar
SVT/Novus
Stickprov n=xxxx
populationsparameter andelen S i popluation p
population röstberättigade i Sverige
Estimator för att skatta p, andelen S-röstare i stickprovet
estimat i SVT/Novus undersökning
Vad är en konfidensintervall?
Ett konfidensintervall är ett intervall som med en viss sannolikhet (konfidensnivå) innehåller det sanna parametervärdet i en population.
Vad är en andel?
En andel är egentligen ett medelvärde av binära variabler
vad betyder iid~
independent and identically distributed (oberende och likafördelade)
med vilekn bokstav beskriver man estimator
^p
När minskar bias
när sticksprobssotrleken ökar n
Bias(^p)=E(^p)-p) =0
När är en normalapproximation tillräckligt bra?
stickprovsstorleken n>=30 (centrala gränsvärdessatsen
np>=10 och nq<=10
oberoendeantagandet maste ara hyfsat uppfyllt
stickprovet är max 10% av populationen
Vad är ett standardfel?
Standardfel för en estimator är standardavvikelsen för dess samplingfördelning och mäter hur mycket estimatorn förväntas variera mellan olika stickprov.
Vad är standardfelet till skillnad av standardavvikelse?
Standardavvikelse mäter spridningen av observationer i en population eller ett stickprov, medan standardfel mäter spridningen av en estimator (t.ex. medelvärdet) mellan olika stickprov och visar hur noggrant estimatorn uppskattar populationsparametern.
Vad innebär ett högre konfidensniva?
högre konfidensniva -> större felmaringal
Ett högre konfidensnivå innebär att vi vill vara mer säkra på att intervallet innehåller den sanna parametern, vilket kräver ett bredare konfidensintervall. För att öka sannolikheten att täcka det sanna värdet måste vi öka felmarginalen, vilket gör intervallet större.
Vad maste man bevisar för centrala gränsvärdesatsen?
X är normalfördelad
väntevärde E(X)=μ
standardavvikelse sigma/kvadratrot(n)
Vad är centrala gränsvärdesatsen?
Om X1, X2, … Xn är oberoende fran en population med godtycklig fördelning sa är samplingfördelningen för medelvärdet approximativt normfördeat i stora stickprov
tumregeln n>=30
Vad är ett exempel för hypotestest?
Nollhyptoes: ny teknin lika bra som gamla
alternativhypotes: ny teknik inte lika bra som gamla
Vad är ett hypotestest?
Ett hypotestest är en statistisk metod för att avgöra om det finns tillräckligt med evidens i ett stickprov för att antingen förkasta eller inte förkasta en given nollhypotes om en population.
Vad är minsta kvadrat metoden?
Minsta kvadratmetoden är en statistisk metod för att hitta den linje eller modell som bäst passar en uppsättning data genom att minimera summan av de kvadrerade avvikelserna mellan de observerade och förväntade värdena.
vad är Residualavvikelsen
Residualavvikelsen är skillnaden mellan ett observerat värde och det värde som förutsägs av en regressionsmodell, vilket visar hur mycket modellen missar i sin förutsägelse.
Vad är Residual standard error (RSE)
Residual standard error (RSE) är ett mått på spridningen av residualerna i en regressionsmodell och beräknas som standardavvikelsen för residualerna. Det visar hur väl modellen passar data – ett lägre värde indikerar en bättre passform.
Vilka antagande om population i en regression? Och hur kolla man dom?
samband mellan x och y linjärt:
plotta y mot x
feltermerna errori är oberoende (residuals)
plotta residualer mot anpassande värden ^y
feltermerna har samma standardavvikelse (homosedastisk) (residuals)
plotta residualer e mot x, liknade sprinding för alla x
feltermerna är normalfördelade (residuals)
histogram, boxplot QQ-plot för residualer
Vilka källor av osäkerhet finns för prediktionsintervall för ^y
de okände parametrarna beta0 och beta1, dvs osäkerhet om regressionlinjgen vid x
variationen i de enskilade y-värderna kring regressionlinjen
vad är en prediktionsintervall?
Ett prediktionsintervall är ett intervall som anger inom vilket område en framtida observation med en viss sannolikhet kommer att falla, givet en regressionsmodell.
Vad är fel av typ I ?
alpha =P(förkasta H0|H0sann)
bestäms av kritiska värdet
vad är fel av typ II?
beta =P(inte förkasta H0|HA sann)
beror pa kristika värdet och värdet pa my under HA
Hur beräknar man testets styrka?
1-beta=P (förkasta H0|HA sann)
Hur ofta har man fel av typ ett när man kolla pa signifikansniva alpha=5%
i snitt var 20:e gang fel
Vad är parade data?
Parade data är data där observationer är kopplade i par, vanligtvis för att jämföra två relaterade mätningar, såsom före och efter en behandling på samma individ eller enheter med naturlig koppling.
Ex mäter samma n personer vid tva tillfällen
det beytder det är beroende stickprov
Hur kan man jämföra parade data
skapa differenser av mätningar
differenserna ska vara oberoende mellan dom olika enheterna men beroende mellan mätningarna hos samma person tillats
Vad är ett chikvadrat test?
Chi-två-test (χ²-test) är ett statistiskt test som används för att analysera om det finns en signifikant skillnad mellan observerade och förväntade frekvenser i kategoriska data. Det används främst för att testa oberoende mellan variabler (χ²-test för oberoende) eller god anpassning till en förväntad fördelning (χ²-test för goodness-of-fit).
Vad är antagande för Chikvadrat test?
räknedata
oberoende observationer
tillräcklig cellfrekvens, minst 5 varje cell
Vad innebär beslutregel?
Antagande för parade data hypotestest
Skillnaderna (DiD_iDi) är normalfördelade eller att stickprovet är tillräckligt stort (n≥30n \geq 30n≥30).
Med endast 5 observationer kan normalfördelningen vara osäker.
Om datan är skev eller innehåller extremvärden kan detta påverka resultatet.
Observationerna är beroende eftersom vi jämför samma personer före och efter bytet.
Stickprovet är slumpmässigt valt, så att resultaten är generaliserbara till hela kundpopulationen.
Zuletzt geändertvor einem Monat