Korrelation och Kausalitet
I det här avsnittet lär vi oss om två viktiga begrepp, korrelation och kausalitet, som används när man tolkar den insamlade informationen för en statistisk undersökning.
Korrelation
När man utför en statistisk undersökning har man ett antal variabler som man tittar på. Exempelvis, om vi är intresserade av hur mycket tid man spenderar utomhus, kan vi vara intresserade om regn eller sol har någon inverkan på hur mycket man vistas ute.
För att ta reda på om det finns en samband eller inte, använder man ofta ett spridningsdiagram för att se hur observationerna är samlade. I spridningsdiagrammet låter man den ena variabeln, finnas längs x-axeln, och den andra variabeln, finnas längs y-axeln. För varje tillgängligt värde på x-axeln markerar vi in dess motsvarande värde för y-axeln. Därefter undersöker vi om det finns något mönster i hur observationerna sprider ut sig, som skulle kunna tyda på att det finns ett samband.
När vi syftar på sambandet mellan variabeln längs x-axeln och variabeln längs y-axeln använder vi begreppet korrelation. Vi använder oss av tre olika fall för att klargöra vilken typ av samverkan som sker mellan variablerna.
Fall 1: Om observationsvärdena som man markerat i spridningsdiagrammet visar på ett samband där variablerna växer tillsammans, kommer de samlas som om de ligger längs en rät linje med positiv lutning. Då säger vi att det är en positiv korrelation mellan variablerna. Detta är fallet som visas i diagrammet nedan.
Vi skulle kunna tänka oss att om x-axeln visade avståndet som eleverna i en klass bor från skolan, och y-axeln visade tiden det tar för eleverna att ta sig till skolan på morgonen, skulle spridningsdiagrammet vara som exemplet ovan. Man ser att när avståndet till skolan ökar, ökar även restiden.
Fall 2: Om de observationsvärden som man markerat däremot ligger samlade runt en tänkt linje med en negativ lutning, så kallar man detta en negativ korrelation mellan variablerna. Detta betyder då att variablerna växer i motsatta riktningar, vilket vi ser ett exempel på i diagrammet nedan.
Fall 3: I det fall när observationerna ligger utspridda och vi inte kan bestämma om en tänkt linje skulle ha positiv eller negativ lutning, säger vi att ingen korrelation finns eller att en korrelation saknas. Det finns inget samband mellan variablerna, som visas i diagrammet nedan.
Exempel
Vi utför en statistisk undersökning för att se om det finns något samband mellan antalet studietimmar i veckan och resultaten på ett prov, och illustrerar våra observationer i spridningsdiagrammet nedan.
Från bilden kan vi se att våra observationer är samlade, och vi skulle kunna dra en tänkt linje för att beskriva sambandet. Tänkta linjen visar då att fler studietimmar som läggs på studier har ett samband med högre resultat på provet. Vi säger därför att det finns en positiv korrelation mellan de två variablerna studietimmar och studieresultat.
Stark eller svag korrelation
Ibland är det inte tydligt ifall det finns en korrelation eller inte mellan två variabler – vi kan se ett visst samband, men värdena är ganska utspridda.
Regressionsanalys
Det innebär att man gör en funktionsanpassning av spridningsdiagrammet. Här beräknar man en linje som anpassas till punkterna. Resultatet är en rät linje av typen \(y=k\cdot x+m\), kallas trendlinje. Enklast att göra det med hjälp av ett digitalt verktyg som t.ex. Geogebra eller Excel.
Korrelationskoefficient
Korrelationen mellan parametrarna kallas \(r\), \(-1≤r≤1\). \(r\) nära \(1\) innebär stark positiv korrelation. \(r\) nära \(-1\) innebär stark negativ korrelation. \(r=0\) är ingen korrelation. Med hjälp av digitala verktyg, t.ex. Excel, kan korrelationen beräknas.
Exempel
Nedanstående spridningsdiagram visar korrelationen emellan 2 variabler. (Excel)
Den streckade linjen är trendlinjen. Den är beräknad så att punkterna är perfekt placerad runt den. Korrelationen, \(r=0,78\), dvs relativt stark.
Kausalitet
Bara för att det finns en korrelation mellan två variabler betyder det inte att det finns ett orsakssamband, det vill säga att den ena händelsen sker som följd av den andra, dvs orsak och verkan.
Därför introducerar vi nu begreppet kausalitet, som innebär att om en av variablerna påverkar den andra variabeln, säger vi att sambandet är kausalt. Att bestämma om ett kausalt samband finns mellan variabler kan ibland vara svårt att avgöra.
För att ett samband ska vara kausalt mellan två variabler måste följande 3 villkor vara uppfyllda:
- Det måste finnas en korrelation mellan variablerna.
- Samma förändring i variablerna får inte ske samtidigt för då påverkas variablerna inte av varandra utan av något annat.
- Det måste kunna uteslutas att inte något annat orsakat korrelation mellan variablerna.
Exempel
I vårt tidigare exempel fastställde vi att det finns en positiv korrelation mellan antalet studietimmar och resultatet på ett prov. Finns det även ett samband mellan att fler lagda timmar på studier leder till högre resultat? Är sambandet en kausalitet?
Det är inte alltid lätt att komma fram till om ett kausalt samband finns eller inte. För att kunna säga att ett kausalt samband finns, måste man kunna utesluta att inga andra orsaker ligger bakom – vilket är svårt om orsaken som ligger bakom är okänd.
Exempel
För att ge ett exempel på när orsaken är okänd så säg att vi jämför ålder med förekomsten av en viss sjukdom. Det kan finnas en stark positiv korrelation mellan ålder och hur vanligt förekommande sjukdomen är. Dock kan vi inte utan vidare dra slutsatsen att det är hög ålder som orsakat sjukdomen, eftersom det kan finnas andra faktorer som har betydelse, till exempel levnadsvanor, förekomst av andra sjukdomar, kostvanor etc. Därför bör man vara försiktig med att dra slutsatser om att man funnit ett orsakssamband, en kausalitet, när man egentligen bara kan ha funnit en korrelation mellan de studerade variablerna.
Genomgång av korrelation samt regressionsanalys.
- Korrelation: Används för att ange att det finns ett samband mellan två variabler.
- Positiv korrelation: Om observationsvärdena i ett spridningsdiagram samlas som om de ligger längs en rät linje med positiv lutning.
- Negativ korrelation: Om observationsvärdena i ett spridningsdiagram ligger samlade runt en tänkt linje med en negativ lutning.
- Stark eller svag korrelation: Om det finns en tydlig positiv eller negativ korrelation kallas korrelationen stark, ifall det finns ett visst samband, men värdena är ganska utspridda kallas korrelationen svag.
- Ingen korrelation: Om det inte finns något samband mellan variablerna.
- Kausalitet: Inträffar endast om den ena variabeln påverkar den andra variabeln, d.v.s. om den ena händelsen sker som ett resultat av den andra.