Data Science - Statistieken correlatiematrix
Correlatiematrix
Een matrix is een reeks getallen die in rijen en kolommen zijn gerangschikt.
Een correlatiematrix is gewoon een tabel met de correlatiecoëfficiënten tussen variabelen.
Hier worden de variabelen weergegeven in de eerste rij en in de eerste kolom:
In de bovenstaande tabel zijn gegevens uit de volledige gezondheidsgegevensset gebruikt.
waarnemingen:
- We zien dat Duration en Calorie_Burnage nauw verwant zijn, met een correlatiecoëfficiënt van 0,89. Dit is logisch, want hoe langer we trainen, hoe meer calorieën we verbranden
- We zien dat er bijna geen lineaire relaties zijn tussen Average_Pulse en Calorie_Burnage (correlatiecoëfficiënt van 0,02)
- Kunnen we concluderen dat Average_Pulse geen invloed heeft op Calorie_Burnage? Nee. We komen later terug om deze vraag te beantwoorden!
Correlatiematrix in Python
We kunnen de corr()
functie in Python gebruiken om een correlatiematrix te maken. We gebruiken de round()
functie ook om de uitvoer af te ronden op twee decimalen:
Voorbeeld
Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)
Uitgang:
Een Heatmap gebruiken
We kunnen een Heatmap gebruiken om de correlatie tussen variabelen te visualiseren:
Hoe dichter de correlatiecoëfficiënt bij 1 ligt, hoe groener de vierkanten worden.
Hoe dichter de correlatiecoëfficiënt bij -1 ligt, hoe bruiner de vierkanten worden.
Seaborn gebruiken om een heatmap te maken
We kunnen de Seaborn-bibliotheek gebruiken om een correlatie-warmtekaart te maken (Seaborn is een visualisatiebibliotheek op basis van matplotlib):
Voorbeeld
import matplotlib.pyplot as plt
import seaborn as sns
correlation_full_health =
full_health_data.corr()
axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50,
500, n=500),
square=True
)
plt.show()
Voorbeeld uitgelegd:
- Importeer de bibliotheek seaborn als sns.
- Gebruik de set full_health_data.
- Gebruik sns.heatmap() om Python te vertellen dat we een heatmap willen om de correlatiematrix te visualiseren.
- Gebruik de correlatiematrix. Definieer de maximale en minimale waarden van de heatmap. Definieer dat 0 het middelpunt is.
- Definieer de kleuren met sns.diverging_palette. n=500 betekent dat we 500 soorten kleuren in hetzelfde kleurenpalet willen.
- square = True betekent dat we vierkanten willen zien.