Panda's - Gegevensframes analyseren
De gegevens bekijken
Een van de meest gebruikte methoden om snel een overzicht van het DataFrame te krijgen, is de head()
methode.
De head()
methode retourneert de koppen en een opgegeven aantal rijen, beginnend vanaf de bovenkant.
Voorbeeld
Krijg een snel overzicht door de eerste 10 rijen van het DataFrame af te drukken:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
In onze voorbeelden gebruiken we een CSV-bestand met de naam 'data.csv'.
Download data.csv of open data.csv in uw browser.
Opmerking: als het aantal rijen niet is opgegeven, head()
retourneert de methode de bovenste 5 rijen.
Voorbeeld
Druk de eerste 5 rijen van het DataFrame af:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
Er is ook een tail()
methode om de
laatste rijen van het DataFrame te bekijken.
De tail()
methode retourneert de koppen en een opgegeven aantal rijen, te beginnen vanaf de onderkant.
Voorbeeld
Druk de laatste 5 rijen van het DataFrame af:
print(df.tail())
Gecertificeerd!
$ 10 INSCHRIJVEN
Info over de gegevens
Het DataFrames-object heeft een methode genaamd info()
, die u meer informatie geeft over de dataset.
Voorbeeld
Informatie over de gegevens afdrukken:
print(df.info())
Resultaat
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
Resultaat uitgelegd
Het resultaat vertelt ons dat er 169 rijen en 4 kolommen zijn:
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
En de naam van elke kolom, met het gegevenstype:
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
Null-waarden
De info()
methode vertelt ons ook hoeveel niet-null-waarden er in elke kolom aanwezig zijn, en in onze dataset lijkt het alsof er 164 van 169 niet-null-waarden in de kolom "Calorieën" zijn.
Dat betekent dat er om wat voor reden dan ook 5 rijen zijn zonder waarde in de kolom "Calorieën".
Lege waarden, of null-waarden, kunnen slecht zijn bij het analyseren van gegevens, en u kunt overwegen om rijen met lege waarden te verwijderen. Dit is een stap in de richting van wat opschoningsgegevens worden genoemd , en daar leer je meer over in de volgende hoofdstukken.