Gegevenswetenschap - Statistiekcorrelatie versus causaliteit
Correlatie impliceert geen causaliteit
Correlatie meet de numerieke relatie tussen twee variabelen.
Een hoge correlatiecoëfficiënt (dicht bij 1) betekent niet dat we met zekerheid een daadwerkelijke relatie tussen twee variabelen kunnen concluderen.
Een klassiek voorbeeld:
- In de zomer stijgt de verkoop van ijs op een strand
- Tegelijkertijd nemen ook verdrinkingsongevallen toe
Betekent dit dat de toename van de ijsverkoop een directe oorzaak is van het toegenomen aantal verdrinkingsongevallen?
Het strandvoorbeeld in Python
Hier hebben we een fictieve dataset voor u samengesteld om te proberen:
Voorbeeld
import pandas as pd
import matplotlib.pyplot as plt
Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale =
[20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident":
[20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale":
[20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)
Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()
correlation_beach = Drowning.corr()
print(correlation_beach)
Uitgang:
Correlatie versus causaliteit - het strandvoorbeeld
Met andere woorden: kunnen we ijsverkoop gebruiken om verdrinkingsongevallen te voorspellen?
Het antwoord is - Waarschijnlijk niet.
Het is waarschijnlijk dat deze twee variabelen per ongeluk met elkaar correleren.
Wat veroorzaakt verdrinking dan?
- Ongeschoolde zwemmers
- Golven
- Kramp
- Epileptische aandoeningen
- Gebrek aan toezicht
- Alcohol (mis)gebruik
- enzovoort.
Laten we de redenering omdraaien:
Betekent een lage correlatiecoëfficiënt (dicht bij nul) dat verandering in x geen invloed heeft op y?
Terug naar de vraag:
- Kunnen we concluderen dat Average_Pulse geen invloed heeft op Calorie_Burnage vanwege een lage correlatiecoëfficiënt?
Het antwoord is nee.
Er is een belangrijk verschil tussen correlatie en causaliteit:
- Correlatie is een getal dat meet hoe nauw de gegevens gerelateerd zijn
- Causaliteit is de conclusie dat x y veroorzaakt.
Het is daarom belangrijk om kritisch na te denken over het concept causaliteit wanneer we voorspellingen doen!