Data Science - Statistieken correlatiematrix


Correlatiematrix

Een matrix is ​​een reeks getallen die in rijen en kolommen zijn gerangschikt.

Een correlatiematrix is ​​gewoon een tabel met de correlatiecoëfficiënten tussen variabelen.

Hier worden de variabelen weergegeven in de eerste rij en in de eerste kolom:

Correlatiematrix

In de bovenstaande tabel zijn gegevens uit de volledige gezondheidsgegevensset gebruikt.

waarnemingen:

  • We zien dat Duration en Calorie_Burnage nauw verwant zijn, met een correlatiecoëfficiënt van 0,89. Dit is logisch, want hoe langer we trainen, hoe meer calorieën we verbranden
  • We zien dat er bijna geen lineaire relaties zijn tussen Average_Pulse en Calorie_Burnage (correlatiecoëfficiënt van 0,02)
  • Kunnen we concluderen dat Average_Pulse geen invloed heeft op Calorie_Burnage? Nee. We komen later terug om deze vraag te beantwoorden!

Correlatiematrix in Python

We kunnen de corr()functie in Python gebruiken om een ​​correlatiematrix te maken. We gebruiken de round()functie ook om de uitvoer af te ronden op twee decimalen:

Voorbeeld

Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)

Uitgang:

Correlatiematrix

Een Heatmap gebruiken

We kunnen een Heatmap gebruiken om de correlatie tussen variabelen te visualiseren:

Correlatie Heatmap

Hoe dichter de correlatiecoëfficiënt bij 1 ligt, hoe groener de vierkanten worden.

Hoe dichter de correlatiecoëfficiënt bij -1 ligt, hoe bruiner de vierkanten worden.


Seaborn gebruiken om een ​​heatmap te maken

We kunnen de Seaborn-bibliotheek gebruiken om een ​​correlatie-warmtekaart te maken (Seaborn is een visualisatiebibliotheek op basis van matplotlib):

Voorbeeld

import matplotlib.pyplot as plt
import seaborn as sns

correlation_full_health = full_health_data.corr()

axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True
)

plt.show()

Voorbeeld uitgelegd:

  • Importeer de bibliotheek seaborn als sns.
  • Gebruik de set full_health_data.
  • Gebruik sns.heatmap() om Python te vertellen dat we een heatmap willen om de correlatiematrix te visualiseren.
  • Gebruik de correlatiematrix. Definieer de maximale en minimale waarden van de heatmap. Definieer dat 0 het middelpunt is.
  • Definieer de kleuren met sns.diverging_palette. n=500 betekent dat we 500 soorten kleuren in hetzelfde kleurenpalet willen.
  • square = True betekent dat we vierkanten willen zien.