Gegevenswetenschap - Statistiekvariantie
variantie
Variantie is een ander getal dat aangeeft hoe verspreid de waarden zijn.
Als je de vierkantswortel van de variantie neemt, krijg je de standaarddeviatie. Of andersom, als je de standaarddeviatie met zichzelf vermenigvuldigt, krijg je de variantie!
We zullen eerst de dataset met 10 waarnemingen gebruiken om een voorbeeld te geven van hoe we de variantie kunnen berekenen:
Looptijd | Gemiddelde_Puls | Max_Pulse | Calorie_Burnage | Uren_Werk | Uren_Slaap |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | 8 | 7 |
45 | 95 | 130 | 270 | 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | 8 |
60 | 110 | 145 | 300 | 7 | 8 |
60 | 115 | 145 | 310 | 8 | 8 |
75 | 120 | 150 | 320 | 0 | 8 |
75 | 125 | 150 | 330 | 8 | 8 |
Variantie wordt vaak weergegeven door het symbool Sigma Square: σ^2
Stap 1 om de variantie te berekenen: zoek het gemiddelde
We willen de variantie van Average_Pulse vinden.
1. Vind het gemiddelde:
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
Het gemiddelde is 102,5
Stap 2: Zoek voor elke waarde het verschil met het gemiddelde
2. Zoek het verschil met het gemiddelde voor elke waarde:
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
Stap 3: Zoek voor elk verschil de vierkante waarde
3. Zoek de kwadratische waarde voor elk verschil:
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
Opmerking: we moeten de waarden kwadrateren om de totale spreiding te krijgen.
Stap 4: De variantie is het gemiddelde aantal van deze gekwadrateerde waarden
4. Tel de gekwadrateerde waarden op en vind het gemiddelde:
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
De variantie is 206,25.
Gebruik Python om de variantie van health_data te vinden
We kunnen de var()
functie van Numpy gebruiken om de variantie te vinden (onthoud dat we nu de eerste dataset met 10 waarnemingen gebruiken):
Voorbeeld
import numpy as np
var = np.var(health_data)
print(var)
Het resultaat:
Gebruik Python om de variantie van de volledige dataset te vinden
Hier berekenen we de variantie voor elke kolom voor de volledige dataset:
Voorbeeld
import numpy as np
var_full = np.var(full_health_data)
print(var_full)
Het resultaat: