Gegevenswetenschap - Statistiekcorrelatie versus causaliteit


Correlatie impliceert geen causaliteit

Correlatie meet de numerieke relatie tussen twee variabelen.

Een hoge correlatiecoëfficiënt (dicht bij 1) betekent niet dat we met zekerheid een daadwerkelijke relatie tussen twee variabelen kunnen concluderen.

Een klassiek voorbeeld:

  • In de zomer stijgt de verkoop van ijs op een strand
  • Tegelijkertijd nemen ook verdrinkingsongevallen toe

Betekent dit dat de toename van de ijsverkoop een directe oorzaak is van het toegenomen aantal verdrinkingsongevallen?


Het strandvoorbeeld in Python

Hier hebben we een fictieve dataset voor u samengesteld om te proberen:

Voorbeeld

import pandas as pd
import matplotlib.pyplot as plt

Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)

Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()

correlation_beach = Drowning.corr()
print(correlation_beach)

Uitgang:

Correlatie versus causaliteit

Correlatie versus causaliteit - het strandvoorbeeld

Met andere woorden: kunnen we ijsverkoop gebruiken om verdrinkingsongevallen te voorspellen?

Het antwoord is - Waarschijnlijk niet.

Het is waarschijnlijk dat deze twee variabelen per ongeluk met elkaar correleren.

Wat veroorzaakt verdrinking dan?

  • Ongeschoolde zwemmers
  • Golven
  • Kramp
  • Epileptische aandoeningen
  • Gebrek aan toezicht
  • Alcohol (mis)gebruik
  • enzovoort.

Laten we de redenering omdraaien:

Betekent een lage correlatiecoëfficiënt (dicht bij nul) dat verandering in x geen invloed heeft op y?

Terug naar de vraag:

  • Kunnen we concluderen dat Average_Pulse geen invloed heeft op Calorie_Burnage vanwege een lage correlatiecoëfficiënt?

Het antwoord is nee.

Er is een belangrijk verschil tussen correlatie en causaliteit:

  • Correlatie is een getal dat meet hoe nauw de gegevens gerelateerd zijn
  • Causaliteit is de conclusie dat x y veroorzaakt.

Het is daarom belangrijk om kritisch na te denken over het concept causaliteit wanneer we voorspellingen doen!