Panda's - Samenspannen
plotten
Pandas gebruikt de plot()
methode om diagrammen te maken.
We kunnen Pyplot, een submodule van de Matplotlib-bibliotheek, gebruiken om het diagram op het scherm te visualiseren.
Lees meer over Matplotlib in onze Matplotlib Tutorial .
Voorbeeld
Importeer pyplot uit Matplotlib en visualiseer ons DataFrame:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('data.csv')
df.plot()
plt.show()
De voorbeelden op deze pagina gebruiken een CSV-bestand genaamd: 'data.csv'.
Download data.csv of Open data.csv
Scatterplot
Geef aan dat u een spreidingsplot wilt met het
kind
argument:
kind = 'scatter'
Een spreidingsplot heeft een x- en een y-as nodig.
In het onderstaande voorbeeld gebruiken we "Duur" voor de x-as en "Calorieën" voor de y-as.
Voeg de x- en y-argumenten als volgt toe:
x = 'Duration', y = 'Calories'
Voorbeeld
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('data.csv')
df.plot(kind = 'scatter', x = 'Duration', y = 'Calories')
plt.show()
Resultaat
Onthoud:
in het vorige voorbeeld hebben we geleerd dat de correlatie tussen "Duur" en "Calorieën" was 0.922721
, en we concludeerden met het feit dat een hogere duur meer verbrande calorieën betekent.
Door naar de scatterplot te kijken, ben ik het daarmee eens.
Laten we nog een scatterplot maken, waar er een slechte relatie is tussen de kolommen, zoals "Duur" en "Maxpulse", met de correlatie 0.009403
:
Voorbeeld
Een spreidingsdiagram waarbij er geen relatie is tussen de kolommen:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('data.csv')
df.plot(kind = 'scatter', x = 'Duration', y = 'Maxpulse')
plt.show()
Resultaat
Gecertificeerd!
$ 10 INSCHRIJVEN
Histogram
Gebruik het
kind
argument om aan te geven dat u een histogram wilt:
kind = 'hist'
Een histogram heeft slechts één kolom nodig.
Een histogram toont ons de frequentie van elk interval, bijvoorbeeld hoeveel trainingen duurden tussen 50 en 60 minuten?
In het onderstaande voorbeeld gebruiken we de kolom "Duur" om het histogram te maken:
Voorbeeld
df["Duration"].plot(kind = 'hist')
Resultaat
Opmerking: het histogram vertelt ons dat er meer dan 100 trainingen waren die tussen de 50 en 60 minuten duurden.