Varför korrelation inte innebär orsak - innebörden av detta vanliga talesätt i statistik

Du kanske kommer ihåg detta enkla mantra från din statistikklass:

"Korrelation innebär inte orsakssamband."

Så kanske du tror att du vet vad den här frasen betyder.

Som om du studerade riktigt hårt i statistik, fick ett bra betyg och sedan gick på college, måste det betyda att du gick på college för att du gick in i statistik.

Medan den betygen, tillsammans med de färdigheter du lärde dig, förmodligen hjälpte, kan du inte ignorera de andra faktorerna som spelas - och troligen inte kan argumentera för att din statistikbetyg var orsaken till att du godkände college.

De första sakerna först - varför misstänker vi korrelationen med orsakssamband?

Det är lätt att tänka att bara för att två saker verkar relaterade, att den ena måste vara orsaken till den andra. Men det kan vara ett dumt och ibland farligt antagande.

Antag till exempel att du försöker lista ut vad som gör människor mindre griniga. Du utför en studie som visar att när människor får minst x timmars sömn per natt är de mindre griniga.

Men har du tagit hänsyn till alla faktorer här? Kanske började de också träna mer som en konsekvens av att vara välvila, och det var det som förändrade deras humör.

Inte alla exempel är ganska så godartade - och vissa är helt meningslösa.

För att illustrera hur vilseledande det kan vara att anta att korrelation innebär kausalitet, ta en titt på följande graf från Tyler Vigens Spurious Correlations:

Även om det råkar finnas en stark korrelation mellan dessa två faktorer, tvivlar jag på att du effektivt skulle kunna hävda att den ena orsakade den andra. Kanske kommer detta att vara en utmaning för människor att försöka bevisa.

Här är en annan pärla från Tylers samling:

Titta på den vackra korrelationen. Men du skulle vara svårt att argumentera för att, bara för att någon åt mer ost, skulle de vara mer benägna att döda sig i sina lakan.

Vad är korrelation i statistik?

Enligt ordboken är en korrelation ett ömsesidigt förhållande eller samband mellan två eller flera saker (eller variabler) - speciellt en som inte förväntas på grundval av enbart slumpen.

Låt oss använda den i en mening: Den enorma storleken på mina hemodlade tomater verkar korrelera med det extra regn vi fick i sommar.

Nu antar jag att eftersom det regnade lite mer än vanligt, tog mina tomatplantor nötter och producerade monstertomater.

Men är det den enda faktorn? Vad sägs om den näringsrika komposten jag använde i mina upphöjda sängar? Vad sägs om kvaliteten på växterna jag köpte från plantskolan? Vad sägs om min noggranna beskärning och skötsel?

Som du kan se, även om det finns ett samband mellan mina stora tomater och vår regniga sommar, innebär detta inte nödvändigtvis orsakssamband.

Vad är orsakssamband i statistik?

Dags för en annan definition. Orsak , enligt ordboken, är den handling eller byrå som ger en effekt.

Låt oss bli lite mer specifika. Orsak innebär att det finns ett samband mellan två händelser där en händelse påverkar den andra. I statistiken, när värdet på en händelse - eller variabel - går upp eller ner på grund av en annan händelse eller variabel, kan vi säga att det fanns orsakssamband. A fick B att hända.

Vad sägs om ett exempel för den här? Du kanske frilansar för en tidning som betalar med ordet. Ju längre berättelsen (och ju fler ord den innehåller), desto mer får du betalt.

Så det finns en direkt korrelation mellan hur många ord du skriver och hur mycket du får betalt. Men det finns också orsakssamband (eftersom du skrev mer fick du betalt mer).

Varför är det så lätt att få fel här?

Varför är det så lätt att tro att korrelation innebär orsakssamband? Om två saker verkar relaterade tenderar vi att associera dem och anta att de påverkar varandra. När vädret är kallt tillbringar människor mer tid inne. Runt semestern är köpcentren fullsatta. När du tar lite ibuprofen försvinner huvudvärken.

Även om dessa omständigheter verkligen är relaterade - och vissa till och med kan innebära orsakssamband - klarar de inte nödvändigtvis vetenskaplig analys.

Det finns några anledningar till att vi felaktigt kan säga orsakssamband från korrelation.

Vad är en Confounding Variable?

Först och främst kan du ha en förvirrande variabel i mixen. Detta är en variabel som påverkar både de oberoende och beroende variablerna i ditt förhållande - och därmed förvirrar din förmåga att bestämma relationen.

Till exempel, om en ny familj flyttar in i ett grannskap och brottet ökar, kan invånarna i det området anta att det beror på den nya familjen. Men tänk om samtidigt ett interneringscenter öppnade i närheten? Det är den mer troliga orsaken till det ökade brottet.

Vad är omvänd orsak?

För det andra kanske du har att göra med omvänd orsakssamband . Detta händer när du istället för att anta att A orsakar B, blandar dem och antar att B orsakar A.

Det kan vara svårt att föreställa sig hur detta händer, men tänk på hur solpaneler fungerar. De producerar mer kraft när solen är längre på himlen.

Men solen är inte längre på himlen eftersom panelerna producerar mer kraft. Panelerna producerar mer kraft eftersom solen skiner under längre perioder.

Vad är en tillfällighet?

För det tredje får vi inte glömma kraften i tillfällighet . När två saker råkar inträffa samtidigt är det frestande att se orsakssamband. Men precis som den där dumma grafen ovan, med arkader och CS-grader, är många bara tillfälligheter.

I slutändan - varför bryr vi oss?

Kanske försöker du ta reda på om ett visst nytt läkemedel får patienter att må bättre. Eller så vill du veta vad som får människor att köpa en viss produkt.

Oavsett din motivation är det ofta mycket användbart att ta reda på om A orsakar B, tillsammans med hur och varför.

Men som vi har sett är det inte så enkelt. Du måste styra så många faktorer som möjligt, minska sannolikheten för att störa variabler och sammanfall och dela informationen till vad som är relevant.

Vi kommer inte in i den djupare filosofiska frågan om hur vi verkligen kan etablera orsakssamband utan tvekan. Det är för en annan gång.

Nu vet du åtminstone att - även om två händelser eller variabler kan verka relaterade - betyder det inte att den ena har en direkt kausal påverkan på den andra.