Panda's - Gegevenscorrelaties


Relaties vinden

Een geweldig aspect van de Pandas-module is de corr()methode.

De corr()methode berekent de relatie tussen elke kolom in uw dataset.

De voorbeelden op deze pagina gebruiken een CSV-bestand genaamd: 'data.csv'.

Download data.csv . of Open data.csv

Voorbeeld

Toon de relatie tussen de kolommen:

df.corr()

Resultaat

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

Opmerking: de corr()methode negeert "niet-numerieke" kolommen.

Resultaat uitgelegd

Het resultaat van de corr()methode is een tabel met veel getallen die aangeeft hoe goed de relatie tussen twee kolommen is.

Het aantal varieert van -1 tot 1.

1 betekent dat er een 1 op 1 relatie is (een perfecte correlatie), en voor deze dataset ging elke keer dat een waarde in de eerste kolom omhoog ging, de andere ook omhoog.

0,9 is ook een goede relatie, en als je de ene waarde verhoogt, zal de andere waarschijnlijk ook toenemen.

-0,9 zou een even goede relatie zijn als 0,9, maar als u de ene waarde verhoogt, zal de andere waarschijnlijk dalen.

0.2 betekent GEEN goede relatie, wat betekent dat als de ene waarde stijgt, dat niet betekent dat de andere dat ook zal doen.

Wat is een goede correlatie? Het hangt af van het gebruik, maar ik denk dat het veilig is om te zeggen dat je op zijn minst 0.6(of -0.6) moet hebben om het een goede correlatie te noemen.

Perfecte correlatie:

We kunnen zien dat "Duur" en "Duur" het nummer hebben gekregen 1.000000, wat logisch is, elke kolom heeft altijd een perfecte relatie met zichzelf.

Goede correlatie:

"Duur" en "Calorieën" kregen een 0.922721correlatie, wat een zeer goede correlatie is, en we kunnen voorspellen dat hoe langer je traint, hoe meer calorieën je verbrandt, en andersom: als je veel calorieën verbrandt, waarschijnlijk een lange training gehad.

Slechte correlatie:

"Duur" en "Maxpulse" kregen een 0.009403correlatie, wat een zeer slechte correlatie is, wat betekent dat we de maximale hartslag niet kunnen voorspellen door alleen naar de duur van de training te kijken, en vice versa.


Test jezelf met oefeningen

Oefening:

Voeg een correcte syntaxis in voor het vinden van relaties tussen kolommen in een DataFrame.

df.()


w3schools CERTIFIED . 2021

Gecertificeerd!

Voltooi de Pandas-modules, doe de oefeningen, doe het examen en je wordt w3schools-gecertificeerd!

$ 10 INSCHRIJVEN