Panda's - Gegevensframes analyseren

❮ Vorig Volgende ❯

De gegevens bekijken

Een van de meest gebruikte methoden om snel een overzicht van het DataFrame te krijgen, is de head()methode.

De head()methode retourneert de koppen en een opgegeven aantal rijen, beginnend vanaf de bovenkant.

Voorbeeld

Krijg een snel overzicht door de eerste 10 rijen van het DataFrame af te drukken:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

In onze voorbeelden gebruiken we een CSV-bestand met de naam 'data.csv'.

Download data.csv of open data.csv in uw browser.

Opmerking: als het aantal rijen niet is opgegeven, head()retourneert de methode de bovenste 5 rijen.

Voorbeeld

Druk de eerste 5 rijen van het DataFrame af:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

Er is ook een tail()methode om de laatste rijen van het DataFrame te bekijken.

De tail()methode retourneert de koppen en een opgegeven aantal rijen, te beginnen vanaf de onderkant.

Voorbeeld

Druk de laatste 5 rijen van het DataFrame af:

print(df.tail())

Gecertificeerd!

Voltooi de Pandas-modules, doe de oefeningen, doe het examen en je wordt w3schools-gecertificeerd!

$ 10 INSCHRIJVEN

Info over de gegevens

Het DataFrames-object heeft een methode genaamd info(), die u meer informatie geeft over de dataset.

Voorbeeld

Informatie over de gegevens afdrukken:

print(df.info())

Resultaat

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None

Resultaat uitgelegd

Het resultaat vertelt ons dat er 169 rijen en 4 kolommen zijn:

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

En de naam van elke kolom, met het gegevenstype:

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Null-waarden

De info()methode vertelt ons ook hoeveel niet-null-waarden er in elke kolom aanwezig zijn, en in onze dataset lijkt het alsof er 164 van 169 niet-null-waarden in de kolom "Calorieën" zijn.

Dat betekent dat er om wat voor reden dan ook 5 rijen zijn zonder waarde in de kolom "Calorieën".

Lege waarden, of null-waarden, kunnen slecht zijn bij het analyseren van gegevens, en u kunt overwegen om rijen met lege waarden te verwijderen. Dit is een stap in de richting van wat opschoningsgegevens worden genoemd , en daar leer je meer over in de volgende hoofdstukken.

❮ Vorig Volgende ❯

Panda walkthrough

Gegevens opschonen

correlaties

plotten

Quiz/Oefeningen

Referenties

Panda's - Gegevensframes analyseren

De gegevens bekijken

Voorbeeld

Voorbeeld

Voorbeeld

Gecertificeerd!

Info over de gegevens

Voorbeeld

Resultaat

Resultaat uitgelegd

Null-waarden