Machine learning - standaarddeviatie
Wat is standaarddeviatie?
Standaarddeviatie is een getal dat beschrijft hoe verspreid de waarden zijn.
Een lage standaarddeviatie betekent dat de meeste getallen dicht bij de gemiddelde (gemiddelde) waarde liggen.
Een hoge standaarddeviatie betekent dat de waarden over een groter bereik worden uitgesmeerd.
Voorbeeld: Deze keer hebben we de snelheid van 7 auto's geregistreerd:
speed = [86,87,88,86,87,85,86]
De standaarddeviatie is:
0.9
Dit betekent dat de meeste waarden binnen het bereik van 0,9 van de gemiddelde waarde liggen, die 86,4 is.
Laten we hetzelfde doen met een selectie van getallen met een groter bereik:
speed = [32,111,138,28,59,77,97]
De standaarddeviatie is:
37.85
Dit betekent dat de meeste waarden binnen het bereik van 37,85 liggen van de gemiddelde waarde, die 77,4 is.
Zoals u kunt zien, geeft een hogere standaarddeviatie aan dat de waarden over een groter bereik zijn verspreid.
De NumPy-module heeft een methode om de standaarddeviatie te berekenen:
Voorbeeld
Gebruik de NumPy- std()
methode om de standaarddeviatie te vinden:
import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)
Voorbeeld
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
variantie
Variantie is een ander getal dat aangeeft hoe verspreid de waarden zijn.
Als je de vierkantswortel van de variantie neemt, krijg je de standaarddeviatie!
Of andersom, als je de standaarddeviatie met zichzelf vermenigvuldigt, krijg je de variantie!
Om de variantie te berekenen gaat u als volgt te werk:
1. Vind het gemiddelde:
(32+111+138+28+59+77+97) / 7 = 77.4
2. Zoek voor elke waarde het verschil met het gemiddelde:
32 - 77.4 = -45.4
111 - 77.4 = 33.6
138
- 77.4 = 60.6
28 - 77.4 = -49.4
59 - 77.4 = -18.4
77
- 77.4 = - 0.4
97 - 77.4 = 19.6
3. Zoek voor elk verschil de kwadratische waarde:
(-45.4)2 = 2061.16
(33.6)2 = 1128.96
(60.6)2 = 3672.36
(-49.4)2 = 2440.36
(-18.4)2 = 338.56
(- 0.4)2 = 0.16
(19.6)2 = 384.16
4. De variantie is het gemiddelde aantal van deze gekwadrateerde verschillen:
(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16)
/ 7 = 1432.2
Gelukkig heeft NumPy een methode om de variantie te berekenen:
Voorbeeld
Gebruik de NumPy- var()
methode om de variantie te vinden:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)
Standaardafwijking
Zoals we hebben geleerd, is de formule om de standaarddeviatie te vinden de vierkantswortel van de variantie:
√1432.25 = 37.85
Of, zoals in het voorbeeld van eerder, gebruik de NumPy om de standaarddeviatie te berekenen:
Voorbeeld
Gebruik de NumPy- std()
methode om de standaarddeviatie te vinden:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
symbolen
Standaarddeviatie wordt vaak weergegeven door het symbool Sigma: σ
Variantie wordt vaak weergegeven door het symbool Sigma Square: σ 2
Hoofdstuk samenvatting
De standaarddeviatie en variantie zijn termen die vaak worden gebruikt in Machine Learning, dus het is belangrijk om te begrijpen hoe je ze kunt krijgen en het concept erachter.