R Verspreidingsplot


Scatterplots

Je hebt uit het hoofdstuk Plot geleerd dat de plot()functie wordt gebruikt om getallen tegen elkaar uit te zetten.

Een "spreidingsplot" is een type plot dat wordt gebruikt om de relatie tussen twee numerieke variabelen weer te geven, en voor elke waarneming wordt één punt weergegeven.

Het heeft twee vectoren van dezelfde lengte nodig, één voor de x-as (horizontaal) en één voor de y-as (verticaal):

Voorbeeld

x <- c(5,7,8,7,2,2,9,4,11,12,9,6)
y <- c(99,86,87,88,111,103,87,94,78,77,85,86)

plot(x, y)

Resultaat:

De observatie in het bovenstaande voorbeeld zou het resultaat moeten tonen van 12 passerende auto's.

Dat is misschien niet duidelijk voor iemand die de grafiek voor het eerst ziet, dus laten we een koptekst en verschillende labels toevoegen om de spreidingsplot beter te beschrijven:

Voorbeeld

x <- c(5,7,8,7,2,2,9,4,11,12,9,6)
y <- c(99,86,87,88,111,103,87,94,78,77,85,86)

plot(x, y, main="Observation of Cars", xlab="Car age", ylab="Car speed")

Resultaat:

Om samen te vatten, de waarneming in het bovenstaande voorbeeld is het resultaat van 12 passerende auto's.

Op de x-as staat hoe oud de auto is.

De y-as toont de snelheid van de auto wanneer deze passeert.

Zijn er verbanden tussen de waarnemingen?

Het lijkt erop dat hoe nieuwer de auto, hoe sneller hij rijdt, maar dat kan toeval zijn, we hebben tenslotte maar 12 auto's geregistreerd.


Percelen vergelijken

In bovenstaand voorbeeld lijkt er een verband te bestaan ​​tussen de autosnelheid en de leeftijd, maar wat als we de waarnemingen ook van een andere dag plotten? Zal de scatterplot ons iets anders vertellen?

Gebruik de points()functie om de plot met een andere plot te vergelijken:

Voorbeeld

Teken twee plots op dezelfde figuur:

# day one, the age and speed of 12 cars:
x1 <- c(5,7,8,7,2,2,9,4,11,12,9,6)
y1 <- c(99,86,87,88,111,103,87,94,78,77,85,86)

# day two, the age and speed of 15 cars:
x2 <- c(2,2,8,1,15,8,12,9,7,3,11,4,7,14,12)
y2 <- c(100,105,84,105,90,99,90,95,94,100,79,112,91,80,85)

plot(x1, y1, main="Observation of Cars", xlab="Car age", ylab="Car speed", col="red", cex=2)
points(x2, y2, col="blue", cex=2)

Resultaat:

Opmerking: om het verschil van de vergelijking te kunnen zien, moet u verschillende kleuren aan de plots toewijzen (met behulp van de colparameter). Rood vertegenwoordigt de waarden van dag 1, terwijl blauw dag 2 vertegenwoordigt. Merk op dat we ook de cexparameter hebben toegevoegd om de grootte van de stippen te vergroten.

Conclusie van de observatie: door de twee grafieken te vergelijken, denk ik dat het veilig is om te zeggen dat ze ons allebei dezelfde conclusie geven: hoe nieuwer de auto, hoe sneller hij rijdt.