Data Science - Inleiding tot statistiek


Inleiding tot statistiek

Statistiek is de wetenschap van het analyseren van gegevens.

Wanneer we een model voor voorspelling hebben gemaakt, moeten we de betrouwbaarheid van de voorspelling beoordelen.

Wat is een voorspelling immers waard als we er niet op kunnen vertrouwen?


Beschrijvende statistieken

We zullen eerst enkele beschrijvende basisstatistieken behandelen.

Beschrijvende statistiek vat belangrijke kenmerken van een dataset samen, zoals:

  • Graaf
  • Som
  • Standaardafwijking
  • percentiel
  • Gemiddeld
  • Enzovoort..

Het is een goed startpunt om vertrouwd te raken met de gegevens.

We kunnen de describe()functie in Python gebruiken om de gegevens samen te vatten:

Voorbeeld

print (full_health_data.describe())

Uitgang:

Statistiek beschrijven

Zie je hier iets interessants?