Python -zelfstudie

Python HOME Python-intro Python Aan de slag Python-syntaxis Python-opmerkingen Python-variabelen Python-gegevenstypen Python-nummers Python-casting Python-snaren Python Booleans Python-operators Python-lijsten Python-tupels Python-sets Python-woordenboeken Python Als...Anders Python While-lussen Python voor lussen Python-functies Python Lambda Python-arrays Python-klassen/objecten Python-overerving Python-iterators Python-bereik Python-modules Python-datums Python-wiskunde Python JSON Python RegEx Python PIP Python proberen...Behalve Python-gebruikersinvoer Opmaak van Python-tekenreeksen

Bestandsbehandeling

Python-bestandsafhandeling Python-bestanden lezen Python bestanden schrijven/maken Python bestanden verwijderen

Python-modules

NumPy-zelfstudie Panda walkthrough Scipy-zelfstudie

Python Matplotlib

Matplotlib Intro Matplotlib Aan de slag Matplotlib Pyplot Matplotlib plotten Matplotlib-markeringen Matplotlib-lijn Matplotlib-labels Matplotlib-raster Matplotlib-subplots Matplotlib Scatter Matplotlib-repen Matplotlib-histogrammen Matplotlib-cirkeldiagrammen

Machinaal leren

Beginnen Gemiddelde mediane modus Standaardafwijking percentiel Gegevensdistributie Normale gegevensverdeling Scatterplot Lineaire regressie Polynomiale regressie Meervoudige regressie Schaal Trein/Test Beslissingsboom

Python MySQL

MySQL Aan de slag MySQL Database maken MySQL-tabel maken MySQL-invoeging MySQL Select MySQL Waar MySQL Bestel op MySQL verwijderen MySQL-droptabel MySQL-update MySQL-limiet MySQL Join

Python MongoDB

MongoDB Aan de slag MongoDB Database maken MongoDB Verzameling maken MongoDB invoegen MongoDB Zoeken MongoDB-query MongoDB Sorteren MongoDB verwijderen MongoDB Drop-collectie MongoDB-update MongoDB-limiet

Python-referentie

Python-overzicht Ingebouwde functies van Python Python-stringmethoden Methoden voor Python-lijst Python-woordenboekmethoden Python Tuple-methoden Methoden voor Python-sets Python-bestandsmethoden Python-trefwoorden Python-uitzonderingen Python-woordenlijst

Modulereferentie

Willekeurige module Verzoekmodule Statistiekmodule Wiskundige module cMath-module

Python-instructies

Lijstduplicaten verwijderen Een string omkeren Voeg twee nummers toe

Python-voorbeelden

Python-voorbeelden Python-compiler Python-oefeningen Python-quiz Python-certificaat

Machine learning - spreidingsplot


Scatterplot

Een spreidingsplot is een diagram waarin elke waarde in de gegevensset wordt weergegeven door een punt.

De Matplotlib-module heeft een methode voor het tekenen van spreidingsdiagrammen, er zijn twee arrays van dezelfde lengte nodig, één voor de waarden van de x-as en één voor de waarden van de y-as:

x = [5,7,8,7,2,17,2,9,4,11,12,9,6]

y = [99,86,87,88,111,86,103,87,94,78,77,85,86]

De xarray vertegenwoordigt de leeftijd van elke auto.

De yarray vertegenwoordigt de snelheid van elke auto.

Voorbeeld

Gebruik de scatter()methode om een ​​spreidingsplotdiagram te tekenen:

import matplotlib.pyplot as plt

x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]

plt.scatter(x, y)
plt.show()

Resultaat:

Scatterplot uitgelegd

De x-as vertegenwoordigt leeftijden, en de y-as vertegenwoordigt snelheden.

Wat we uit het diagram kunnen aflezen is dat de twee snelste auto's beide 2 jaar oud waren en de langzaamste auto 12 jaar oud.

Let op: Het lijkt erop dat hoe nieuwer de auto, hoe sneller hij rijdt, maar dat kan toeval zijn, we hebben tenslotte maar 13 auto's geregistreerd.



Willekeurige gegevensverdelingen

In Machine Learning kunnen de datasets duizenden of zelfs miljoenen waarden bevatten.

Het kan zijn dat u geen gegevens uit de echte wereld hebt wanneer u een algoritme test, u moet mogelijk willekeurig gegenereerde waarden gebruiken.

Zoals we in het vorige hoofdstuk hebben geleerd, kan de NumPy-module ons daarbij helpen!

Laten we twee arrays maken die beide zijn gevuld met 1000 willekeurige getallen uit een normale gegevensverdeling.

De eerste array heeft het gemiddelde ingesteld op 5,0 met een standaarddeviatie van 1,0.

De tweede array heeft het gemiddelde ingesteld op 10,0 met een standaarddeviatie van 2,0:

Voorbeeld

Een spreidingsdiagram met 1000 punten:

import numpy
import matplotlib.pyplot as plt

x = numpy.random.normal(5.0, 1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)

plt.scatter(x, y)
plt.show()

Resultaat:

Scatterplot uitgelegd

We kunnen zien dat de punten geconcentreerd zijn rond de waarde 5 op de x-as en 10 op de y-as.

We kunnen ook zien dat de spreiding groter is op de y-as dan op de x-as.