Data Science - Statistiek Standaarddeviatie
Standaardafwijking
Standaarddeviatie is een getal dat beschrijft hoe verspreid de waarnemingen zijn.
Een wiskundige functie zal moeite hebben met het voorspellen van precieze waarden als de waarnemingen "verspreid" zijn. Standaarddeviatie is een maat voor onzekerheid.
Een lage standaarddeviatie betekent dat de meeste getallen dicht bij de gemiddelde (gemiddelde) waarde liggen.
Een hoge standaarddeviatie betekent dat de waarden over een groter bereik worden uitgesmeerd.
Standaarddeviatie wordt vaak weergegeven door het symbool Sigma: σ
We kunnen de std()
functie van Numpy gebruiken om de standaarddeviatie van een variabele te vinden:
Voorbeeld
import numpy as np
std = np.std(full_health_data)
print(std)
Het resultaat:
Wat betekenen deze cijfers?
Variatiecoëfficiënt
De variatiecoëfficiënt wordt gebruikt om een idee te krijgen van hoe groot de standaarddeviatie is.
Wiskundig wordt de variatiecoëfficiënt gedefinieerd als:
Coefficient of Variation = Standard Deviation / Mean
We kunnen dit in Python doen als we doorgaan met de volgende code:
Voorbeeld
import numpy as np
cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)
Het resultaat:
We zien dat de variabelen Duration, Calorie_Burnage en Hours_Work een hoge standaarddeviatie hebben in vergelijking met Max_Pulse, Average_Pulse en Hours_Sleep.