Panda's - Gegevensframes analyseren


De gegevens bekijken

Een van de meest gebruikte methoden om snel een overzicht van het DataFrame te krijgen, is de head()methode.

De head()methode retourneert de koppen en een opgegeven aantal rijen, beginnend vanaf de bovenkant.

Voorbeeld

Krijg een snel overzicht door de eerste 10 rijen van het DataFrame af te drukken:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

In onze voorbeelden gebruiken we een CSV-bestand met de naam 'data.csv'.

Download data.csv of open data.csv in uw browser.

Opmerking: als het aantal rijen niet is opgegeven, head()retourneert de methode de bovenste 5 rijen.

Voorbeeld

Druk de eerste 5 rijen van het DataFrame af:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

Er is ook een tail()methode om de laatste rijen van het DataFrame te bekijken.

De tail()methode retourneert de koppen en een opgegeven aantal rijen, te beginnen vanaf de onderkant.

Voorbeeld

Druk de laatste 5 rijen van het DataFrame af:

print(df.tail()) 

w3schools CERTIFIED . 2021

Gecertificeerd!

Voltooi de Pandas-modules, doe de oefeningen, doe het examen en je wordt w3schools-gecertificeerd!

$ 10 INSCHRIJVEN

Info over de gegevens

Het DataFrames-object heeft een methode genaamd info(), die u meer informatie geeft over de dataset.

Voorbeeld

Informatie over de gegevens afdrukken:

print(df.info()) 

Resultaat

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

Resultaat uitgelegd

Het resultaat vertelt ons dat er 169 rijen en 4 kolommen zijn:

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

En de naam van elke kolom, met het gegevenstype:

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Null-waarden

De info()methode vertelt ons ook hoeveel niet-null-waarden er in elke kolom aanwezig zijn, en in onze dataset lijkt het alsof er 164 van 169 niet-null-waarden in de kolom "Calorieën" zijn.

Dat betekent dat er om wat voor reden dan ook 5 rijen zijn zonder waarde in de kolom "Calorieën".

Lege waarden, of null-waarden, kunnen slecht zijn bij het analyseren van gegevens, en u kunt overwegen om rijen met lege waarden te verwijderen. Dit is een stap in de richting van wat opschoningsgegevens worden genoemd , en daar leer je meer over in de volgende hoofdstukken.