Data Science - Statistiek Standaarddeviatie


Standaardafwijking

Standaarddeviatie is een getal dat beschrijft hoe verspreid de waarnemingen zijn.

Standaardafwijking

Een wiskundige functie zal moeite hebben met het voorspellen van precieze waarden als de waarnemingen "verspreid" zijn. Standaarddeviatie is een maat voor onzekerheid.

Een lage standaarddeviatie betekent dat de meeste getallen dicht bij de gemiddelde (gemiddelde) waarde liggen.

Een hoge standaarddeviatie betekent dat de waarden over een groter bereik worden uitgesmeerd.

Standaarddeviatie wordt vaak weergegeven door het symbool Sigma: σ

We kunnen de std()functie van Numpy gebruiken om de standaarddeviatie van een variabele te vinden:

Voorbeeld

import numpy as np

std = np.std(full_health_data)
print(std)

Het resultaat:

Standaardafwijking

Wat betekenen deze cijfers?


Variatiecoëfficiënt

De variatiecoëfficiënt wordt gebruikt om een ​​idee te krijgen van hoe groot de standaarddeviatie is.

Wiskundig wordt de variatiecoëfficiënt gedefinieerd als:

Coefficient of Variation = Standard Deviation / Mean

 We kunnen dit in Python doen als we doorgaan met de volgende code:

Voorbeeld

import numpy as np

cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)

Het resultaat:

Variatiecoëfficiënt

We zien dat de variabelen Duration, Calorie_Burnage en Hours_Work een hoge standaarddeviatie hebben in vergelijking met Max_Pulse, Average_Pulse en Hours_Sleep.