Standardavvikelse
I det förra avsnittet tittade vi med hjälp av variationsbredd och kvartiler på observationsvärdenas spridning runt medianen, men man kan även vara intresserad av spridningsmått vad gäller spridning runt medelvärdet. Det vanligaste måttet på spridning runt medelvärdet är standardavvikelse, vilket vi ska bekanta oss med i detta avsnitt.
Definition av standardavvikelse
Med standardavvikelsen menar vi ett mått på den genomsnittliga avvikelsen från medelvärdet i en serie observationsvärden. Ju större standardavvikelsen är, desto större är spridningen bland våra observationsvärden.
När vi ska beräkna standardavvikelsen börjar vi med att beräkna medelvärdet för observationsvärdena (vilket vi här betecknar med m) och sedan beräknar vi hur mycket varje enskilt observationsvärde (här betecknat med x) avviker från detta medelvärde.
Avvikelsen från medelvärde för ett observationsvärde kan vi därför skriva som
$$x-m$$
där x är observationsvärdet och m är medelvärdet för serien.
I nästa steg kvadrerar vi var och en av dessa avvikelser från medelvärdet, vilket får till följd dels att alla våra kvadrerade avvikelser blir positiva, dels att stora avvikelser i kvadrerad form blir ännu större i jämförelse med små kvadrerade avvikelser.
Den kvadrerade avvikelsen för ett observationsvärde blir därför
$$(x-m)^2$$
När vi har dessa kvadrerade avvikelser för vart och ett av våra observationsvärden vill vi ju ha reda på hur stor den genomsnittliga kvadrerade avvikelsen är. Därför summerar vi samtliga kvadrerade avvikelser och dividerar denna summa med antalet observationsvärden, vilket ger oss följande:
$$\frac{\sum {(x-m)^2}}n$$
där n är antalet observationer.
Nu är vi nästan klara, men det värde vi får av formeln ovan har inte samma enhet som observationsvärdena. För att rätta till detta beräknar vi roten ur vår genomsnittliga kvadrerade avvikelse.
Sammanfattningsvis får vi därför följande formel för standardavvikelsen:
$$\sigma = \sqrt{\frac{\sum {(x-m)^2}}{n}}$$
där ∑ är summan av det som följer till höger, x är ett enskilt observationsvärde, m är medelvärdet, och n är antalet observationer.
Standardavvikelse
Låt oss nu titta på två konkreta exempel på beräkning av standardavvikelse med hjälp av fallen med åldersspridningen vid våra båda middagar, som vi är bekanta med från de tidigare statistikavsnitten.
Vid släktmiddagen har vi deltagare med följande åldrar (observationsvärden) och medelvärde, \(m_s\):
$$1,\, 4,\, 3,\, 15,\, 72,\, 41,\, 30,\, 27,\, 72,\, 8,\, 42,\, 36,\, 33,\, 46,\, 44$$
$$medelvärde\, (m_s) = 31,6\,år$$
Vid kompismiddagen har vi deltagare med följande åldrar (observationsvärden) och medelvärde, \(m_k\):
$$30,\, 31,\, 33,\, 34,\, 35,\, 34,\, 28,\, 34,\, 33,\, 34,\, 36,\, 35,\, 32,\, 31,\, 32$$
$$medelvärde\, (m_k)=32,8\,år$$
Nu kan vi räkna ut avvikelsen från medelvärdet för vart och ett av dessa observationsvärden.
I tabellen nedan har vi räknat ut avvikelsen för såväl släktmiddagen som kompismiddagen:
Släktmiddag | \(m_{s}\)=31,6 | Kompismiddag | \(m_{k}\)=32,8 |
\(x_{s}\) | \((x_{s}-m_{s})\) | \(x_{k}\) | \((x_{k}-m_{k})\) |
1 | -30,6 | 28 | -4,8 |
3 | -28,6 | 30 | -2,8 |
4 | -27,6 | 31 | -1,8 |
8 | -23,6 | 31 | -1,8 |
15 | -16,6 | 32 | -0,8 |
27 | -4,6 | 32 | -0,8 |
30 | -1,6 | 33 | 0,2 |
33 | 1,4 | 33 | 0,2 |
36 | 4,4 | 34 | 1,2 |
41 | 9,4 | 34 | 1,2 |
42 | 10,4 | 34 | 1,2 |
44 | 12,4 | 34 | 1,2 |
46 | 14,4 | 35 | 2,2 |
72 | 40,4 | 35 | 2,2 |
72 | 40,4 | 36 | 3,2 |
När vi nu har beräknat avvikelsen från medelvärdet för vart och ett av observationsvärdena, ska vi kvadrera dessa avvikelser. Dessa kvadrerade avvikelser beräknar vi och redovisar i följande tabell:
Släktmiddag | \(m_{s}\)=31,6 | Kompismiddag | \(m_{k}\)=32,8 |
\(x_{s}\) | \((x_{s}-m_{s})^2\) | \(x_{k}\) | \((x_{k}-m_{k})^2\) |
1 | 936,36 | 28 | 23,04 |
3 | 817,96 | 30 | 7,84 |
4 | 761,76 | 31 | 3,24 |
8 | 556,69 | 31 | 3,24 |
15 | 275,56 | 32 | 0,64 |
27 | 21,16 | 32 | 0,64 |
30 | 2,56 | 33 | 0,04 |
33 | 1,96 | 33 | 0,04 |
36 | 19,36 | 34 | 1,44 |
41 | 88,36 | 34 | 1,44 |
42 | 108,16 | 34 | 1,44 |
44 | 153,76 | 34 | 1,44 |
46 | 207,36 | 35 | 4,84 |
72 | 1632,16 | 35 | 4,84 |
72 | 1632,16 | 36 | 10,24 |
Nu summerar vi de kvadrerade avvikelserna för de båda serierna och beräknar standardavvikelsen för de båda middagssällskapen.
För släktmiddagen får vi
$$\sigma_s=\sqrt{\frac{\sum {(x_s-m_s)^2}}{n}}=\sqrt{\frac{7215,6}{15}}\approx21,9$$
och för kompismiddagen
$$\sigma_k=\sqrt{\frac{\sum {(x_k-m_k)^2}}{n}}=\sqrt{\frac{64,4}{15}}\approx2,1$$
Som vi ser har vi som väntat en betydligt större spridning i fallet med släktmiddagen (21,9 år) än vid kompismiddagen (2,1 år) även när vi nu tittar på spridningen från medelvärdet.
Standardavvikelse vid stickprovsundersökningar
I våra exempelfall här ovanför har vi räknat på standardavvikelsen i hela populationen (åldern på samtliga deltagare vid respektive middag var känd), men gör man en större statistisk undersökning tittar man oftast bara på ett stickprov av populationen man undersöker. Standardavvikelsen för ett stickprov får vi genom formeln
$$s = \sqrt{\frac{\sum (x-m)^{2}}{n-1}}$$
Skillnaden mot den vanliga formeln för standardavvikelsen består i att man i det här fallet dividerar med (n - 1) istället för n. Anledningen till att man använder detta värde är att man genom stickprovsundersökningar i praktiken har märkt att det ger en bättre uppskattning av den faktiska standardavvikelsen i hela populationen om man gör så.
Ett vanligt användningsområde för standardavvikelsen är vid normalfördelning, vilken vi kommer att bekanta oss med i nästa avsnitt.
Här går vi igenom standardavvikelse.
- Observationer: de mätningar, iakttagelser eller resultat vi får från en undersökning
- Medelvärde: summan av alla ingående observationer dividerat med antalet observationer:
$$medelvärde=\frac{summan\,av\,observationerna}{antalet\,observationer}$$ - Standardavvikelse: ett statistiskt mått på hur mycket de olika värdena för observationerna avviker från medelvärdet, betecknas oftast med \(\sigma\) eller \(s\) och formeln:
$$\sigma = \sqrt{\frac{\sum {(x-m)^2}}{n}}$$ - Stickprov: ett mindre urval ur en större population/grupp.
- Standardavvikelse vid stickprov: har en annan formel för att beräkna eftersom undersökningar eftersom undersökningar visa att den ger en bättre uppskattning.
$$s = \sqrt{\frac{\sum (x-m)^{2}}{n-1}}$$