Gegevenswetenschap - Python DataFrame


Maak een DataFrame met Panda's

Een dataframe is een gestructureerde weergave van data.

Laten we een dataframe definiëren met 3 kolommen en 5 rijen met fictieve getallen:

Voorbeeld

import pandas as pd

d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}

df = pd.DataFrame(data=d)

print(df)

Voorbeeld uitgelegd

  • Importeer de Pandas-bibliotheek als pd
  • Definieer gegevens met kolom en rijen in een variabele met de naam d
  • Maak een dataframe met de functie pd.DataFrame()
  • Het dataframe bevat 3 kolommen en 5 rijen
  • Druk de dataframe-uitvoer af met de functie print()

We schrijven pd. voor DataFrame() om Python te laten weten dat we de functie DataFrame() uit de Pandas-bibliotheek willen activeren.

Let op de hoofdletters D en F in DataFrame!


De uitvoer interpreteren

Dit is de uitvoer:

Dataframe-uitvoer

We zien dat "col1", "col2" en "col3" de namen van de kolommen zijn.

Wees niet verward over de verticale getallen van 0-4. Ze vertellen ons de informatie over de positie van de rijen.

In Python begint de nummering van rijen met nul.

Nu kunnen we Python gebruiken om de kolommen en rijen te tellen.

We kunnen df.shape[1] gebruiken om het aantal kolommen te vinden:

Voorbeeld

Tel het aantal kolommen:

count_column = df.shape[1]
print(count_column)

We kunnen df.shape[0] gebruiken om het aantal rijen te vinden:

Voorbeeld

Tel het aantal rijen:

count_row = df.shape[0]
print(count_row)

Waarom kunnen we de rijen en kolommen niet gewoon zelf tellen?

Als we werken met grotere datasets met veel kolommen en rijen, wordt het verwarrend om deze zelf te tellen. Je loopt het risico het verkeerd te tellen. Als we de ingebouwde functies in Python correct gebruiken, zorgen we ervoor dat de telling correct is.