Panda's - Samenspannen



plotten

Pandas gebruikt de plot()methode om diagrammen te maken.

We kunnen Pyplot, een submodule van de Matplotlib-bibliotheek, gebruiken om het diagram op het scherm te visualiseren.

Lees meer over Matplotlib in onze Matplotlib Tutorial .

Voorbeeld

Importeer pyplot uit Matplotlib en visualiseer ons DataFrame:

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')

df.plot()

plt.show()

De voorbeelden op deze pagina gebruiken een CSV-bestand genaamd: 'data.csv'.

Download data.csv of Open data.csv


Scatterplot

Geef aan dat u een spreidingsplot wilt met het kindargument:

kind = 'scatter'

Een spreidingsplot heeft een x- en een y-as nodig.

In het onderstaande voorbeeld gebruiken we "Duur" voor de x-as en "Calorieën" voor de y-as.

Voeg de x- en y-argumenten als volgt toe:

x = 'Duration', y = 'Calories'

Voorbeeld

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')

df.plot(kind = 'scatter', x = 'Duration', y = 'Calories')

plt.show()

Resultaat

Onthoud: in het vorige voorbeeld hebben we geleerd dat de correlatie tussen "Duur" en "Calorieën" was 0.922721, en we concludeerden met het feit dat een hogere duur meer verbrande calorieën betekent.

Door naar de scatterplot te kijken, ben ik het daarmee eens.

Laten we nog een scatterplot maken, waar er een slechte relatie is tussen de kolommen, zoals "Duur" en "Maxpulse", met de correlatie 0.009403:

Voorbeeld

Een spreidingsdiagram waarbij er geen relatie is tussen de kolommen:

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')

df.plot(kind = 'scatter', x = 'Duration', y = 'Maxpulse')

plt.show()

Resultaat


w3schools CERTIFIED . 2021

Gecertificeerd!

Voltooi de Pandas-modules, doe de oefeningen, doe het examen en je wordt w3schools-gecertificeerd!

$ 10 INSCHRIJVEN

Histogram

Gebruik het kindargument om aan te geven dat u een histogram wilt:

kind = 'hist'

Een histogram heeft slechts één kolom nodig.

Een histogram toont ons de frequentie van elk interval, bijvoorbeeld hoeveel trainingen duurden tussen 50 en 60 minuten?

In het onderstaande voorbeeld gebruiken we de kolom "Duur" om het histogram te maken:

Voorbeeld

df["Duration"].plot(kind = 'hist')

Resultaat

Opmerking: het histogram vertelt ons dat er meer dan 100 trainingen waren die tussen de 50 en 60 minuten duurden.


Test jezelf met oefeningen

Oefening:

Voeg een correcte syntaxis in om de gegevens in DataFrame als diagram te visualiseren (plots).

df.()