Panda's - Gegevenscorrelaties
Relaties vinden
Een geweldig aspect van de Pandas-module is de corr()
methode.
De corr()
methode berekent de relatie tussen elke kolom in uw dataset.
De voorbeelden op deze pagina gebruiken een CSV-bestand genaamd: 'data.csv'.
Download data.csv . of Open data.csv
Voorbeeld
Toon de relatie tussen de kolommen:
df.corr()
Resultaat
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
Opmerking:
de corr()
methode negeert "niet-numerieke" kolommen.
Resultaat uitgelegd
Het resultaat van de corr()
methode is een tabel met veel getallen die aangeeft hoe goed de relatie tussen twee kolommen is.
Het aantal varieert van -1 tot 1.
1 betekent dat er een 1 op 1 relatie is (een perfecte correlatie), en voor deze dataset ging elke keer dat een waarde in de eerste kolom omhoog ging, de andere ook omhoog.
0,9 is ook een goede relatie, en als je de ene waarde verhoogt, zal de andere waarschijnlijk ook toenemen.
-0,9 zou een even goede relatie zijn als 0,9, maar als u de ene waarde verhoogt, zal de andere waarschijnlijk dalen.
0.2 betekent GEEN goede relatie, wat betekent dat als de ene waarde stijgt, dat niet betekent dat de andere dat ook zal doen.
Wat is een goede correlatie?
Het hangt af van het gebruik, maar ik denk dat het veilig is om te zeggen dat je op zijn minst 0.6
(of -0.6
) moet hebben om het een goede correlatie te noemen.
Perfecte correlatie:
We kunnen zien dat "Duur" en "Duur" het nummer hebben gekregen 1.000000
, wat logisch is, elke kolom heeft altijd een perfecte relatie met zichzelf.
Goede correlatie:
"Duur" en "Calorieën" kregen een 0.922721
correlatie, wat een zeer goede correlatie is, en we kunnen voorspellen dat hoe langer je traint, hoe meer calorieën je verbrandt, en andersom: als je veel calorieën verbrandt, waarschijnlijk een lange training gehad.
Slechte correlatie:
"Duur" en "Maxpulse" kregen een 0.009403
correlatie, wat een zeer slechte correlatie is, wat betekent dat we de maximale hartslag niet kunnen voorspellen door alleen naar de duur van de training te kijken, en vice versa.
Gecertificeerd!
$ 10 INSCHRIJVEN