Gegevenswetenschap - Statistiekvariantie


variantie

Variantie is een ander getal dat aangeeft hoe verspreid de waarden zijn.

Als je de vierkantswortel van de variantie neemt, krijg je de standaarddeviatie. Of andersom, als je de standaarddeviatie met zichzelf vermenigvuldigt, krijg je de variantie!

We zullen eerst de dataset met 10 waarnemingen gebruiken om een ​​voorbeeld te geven van hoe we de variantie kunnen berekenen:

Looptijd Gemiddelde_Puls Max_Pulse Calorie_Burnage Uren_Werk Uren_Slaap
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

Variantie wordt vaak weergegeven door het symbool Sigma Square: σ^2


Stap 1 om de variantie te berekenen: zoek het gemiddelde

We willen de variantie van Average_Pulse vinden.

1. Vind het gemiddelde:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

Het gemiddelde is 102,5


Stap 2: Zoek voor elke waarde het verschil met het gemiddelde

2. Zoek het verschil met het gemiddelde voor elke waarde:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Stap 3: Zoek voor elk verschil de vierkante waarde

3. Zoek de kwadratische waarde voor elk verschil:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Opmerking: we moeten de waarden kwadrateren om de totale spreiding te krijgen.



Stap 4: De variantie is het gemiddelde aantal van deze gekwadrateerde waarden

4. Tel de gekwadrateerde waarden op en vind het gemiddelde:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

De variantie is 206,25.


Gebruik Python om de variantie van health_data te vinden

We kunnen de var()functie van Numpy gebruiken om de variantie te vinden (onthoud dat we nu de eerste dataset met 10 waarnemingen gebruiken):

Voorbeeld

import numpy as np

var = np.var(health_data)
print(var)

Het resultaat:

variantie

Gebruik Python om de variantie van de volledige dataset te vinden

Hier berekenen we de variantie voor elke kolom voor de volledige dataset:

Voorbeeld

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

Het resultaat:

variantie