Machine Learning - Normale gegevensdistributie
Normale gegevensverdeling
In het vorige hoofdstuk hebben we geleerd hoe we een volledig willekeurige array kunnen maken, van een bepaalde grootte en tussen twee gegeven waarden.
In dit hoofdstuk zullen we leren hoe we een array kunnen maken waarin de waarden zijn geconcentreerd rond een bepaalde waarde.
In de kanstheorie staat dit soort gegevensverdeling bekend als de normale gegevensverdeling , of de Gauss-gegevensverdeling , naar de wiskundige Carl Friedrich Gauss die de formule van deze gegevensverdeling bedacht.
Voorbeeld
Een typische normale gegevensverdeling:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.normal(5.0, 1.0, 100000)
plt.hist(x, 100)
plt.show()
Resultaat:
Opmerking: een normaalverdelingsgrafiek staat ook bekend als de klokkromme vanwege de karakteristieke vorm van een klok.
Histogram uitgelegd
We gebruiken de array uit de numpy.random.normal()
methode, met 100000 waarden, om een histogram met 100 staven te tekenen.
We specificeren dat de gemiddelde waarde 5,0 is en dat de standaarddeviatie 1,0 is.
Dit betekent dat de waarden moeten worden geconcentreerd rond 5,0, en zelden verder dan 1,0 van het gemiddelde.
En zoals je in het histogram kunt zien, liggen de meeste waarden tussen 4,0 en 6,0, met een top van ongeveer 5,0.