R -gegevensset


Gegevensset

Een dataset is een verzameling gegevens, vaak gepresenteerd in een tabel.

Er is een populaire ingebouwde dataset in R genaamd " mtcars " (Motor Trend Car Road Tests), die is opgehaald uit het Motor Trend US Magazine uit 1974.

In de onderstaande voorbeelden (en voor de volgende hoofdstukken) zullen we de mtcars dataset gebruiken voor statistische doeleinden:

Voorbeeld

# Print the mtcars data set
mtcars

Resultaat:

                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Mazda RX4           21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag       21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
Datsun 710          22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
Merc 230            22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
Merc 280            19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
Merc 280C           17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4
Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
Fiat 128            32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
Honda Civic         30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
Toyota Corona       21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
Fiat X1-9           27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
Porsche 914-2       26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
Lotus Europa        30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
Ford Pantera L      15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
Ferrari Dino        19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
Maserati Bora       15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
Volvo 142E          21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2

Informatie over de dataset

U kunt het vraagteken ( ?) gebruiken om informatie over de mtcarsdataset te krijgen:

Voorbeeld

# Use the question mark to get information about the data set

?mtcars

Resultaat:

mtcars {datasets}R Documentatie

Motor Trend Auto Road Tests

Beschrijving

De gegevens zijn ontleend aan het Amerikaanse tijdschrift Motor Trend uit 1974 en omvatten het brandstofverbruik en 10 aspecten van auto-ontwerp en -prestaties voor 32 auto's (modellen van 1973-74).

Gebruik

mtcars

Formaat

Een dataframe met 32 ​​observaties op 11 (numerieke) variabelen.

[, 1] mpg Mijlen/(VS) gallon
[, 2] cyl aantal cilinders
[, 3] baten Verplaatsing (cu.in.)
[, 4] pk Bruto pk
[, 5] ontwerp Achteras verhouding
[, 6] wt Gewicht (1000 pond)
[, 7] qsec 1/4 mijl tijd
[, 8] vs Motor (0 = V-vormig, 1 = recht)
[, 9] ben Transmissie (0 = automaat, 1 = handgeschakeld)
[,10] uitrusting Aantal versnellingen vooruit
[,11] koolhydraten Aantal carburateurs

Opmerking

Henderson en Velleman (1981) geven commentaar in een voetnoot bij Tabel 1: 'Hocking [originele transcriber]'s niet-cruciale codering van de Mazda's rotatiemotor als een zescilinder-in-lijnmotor en de platte motor van Porsche als een V-motor, evenals de toevoeging van de diesel Mercedes 240D, zijn behouden om een ​​directe vergelijking met eerdere analyses mogelijk te maken.'

Bron

Henderson en Velleman (1981), Interactief meerdere regressiemodellen bouwen. Biometrie , 37 , 391-411.

Voorbeelden

require(graphics)
pairs(mtcars, main = "mtcars data", gap = 1/4)
coplot(mpg ~ disp | as.factor(cyl), data = mtcars,
       panel = panel.smooth, rows = 1)
## possibly more meaningful, e.g., for summary() or bivariate plots:
mtcars2 <- within(mtcars, {
   vs <- factor(vs, labels = c("V", "S"))
   am <- factor(am, labels = c("automatic", "manual"))
   cyl  <- ordered(cyl)
   gear <- ordered(gear)
   carb <- ordered(carb)
})
summary(mtcars2)

Informatie krijgen

Gebruik de dim()functie om de afmetingen van de dataset te vinden en de names()functie om de namen van de variabelen te bekijken:

Voorbeeld

Data_Cars <- mtcars # create a variable of the mtcars data set for better organization

# Use dim() to find the dimension of the data set
dim(Data_Cars)

# Use names() to find the names of the variables from the data set
names(Data_Cars)

Resultaat:

[1] 32 11
 [1] "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear"
[11] "carb"

Gebruik de rownames()functie om de naam van elke rij in de eerste kolom te krijgen, de naam van elke auto:

Voorbeeld

Data_Cars <- mtcars

rownames(Data_Cars)

Resultaat:

 [1] "Mazda RX4"           "Mazda RX4 Wag"       "Datsun 710"         
 [4] "Hornet 4 Drive"      "Hornet Sportabout"   "Valiant"            
 [7] "Duster 360"          "Merc 240D"           "Merc 230"           
[10] "Merc 280"            "Merc 280C"           "Merc 450SE"         
[13] "Merc 450SL"          "Merc 450SLC"         "Cadillac Fleetwood" 
[16] "Lincoln Continental" "Chrysler Imperial"   "Fiat 128"           
[19] "Honda Civic"         "Toyota Corolla"      "Toyota Corona"      
[22] "Dodge Challenger"    "AMC Javelin"         "Camaro Z28"         
[25] "Pontiac Firebird"    "Fiat X1-9"           "Porsche 914-2"      
[28] "Lotus Europa"        "Ford Pantera L"      "Ferrari Dino"       
[31] "Maserati Bora"       "Volvo 142E"         

Uit de bovenstaande voorbeelden hebben we ontdekt dat de dataset 32 waarnemingen heeft (Mazda RX4, Mazda RX4 Wag, Datsun 710, enz.) en 11 variabelen (mpg, cyl, disp, enz.).

Een variabele wordt gedefinieerd als iets dat kan worden gemeten of geteld.

Hier volgt een korte uitleg van de variabelen uit de mtcars-dataset:

Variabele naam Beschrijving
mpg Mijl/(VS) Gallon
cyl aantal cilinders
baten Verplaatsing
pk Bruto pk
ontwerp Achteras verhouding
wt Gewicht (1000 pond)
qsec 1/4 mijl tijd
vs Motor (0 = V-vormig, 1 = recht)
ben Transmissie (0 = automaat, 1 = handgeschakeld)
uitrusting Aantal versnellingen vooruit
koolhydraten Aantal carburateurs

Variabele waarden afdrukken

Als u alle waarden die bij een variabele horen wilt afdrukken, opent u het dataframe met behulp van het $teken en de naam van de variabele (bijvoorbeeld cyl(cilinders)):

Voorbeeld

Data_Cars <- mtcars

Data_Cars$cyl

Resultaat:

 [1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4

Variabele waarden sorteren

Gebruik de sort()functie om de waarden te sorteren:

Voorbeeld

Data_Cars <- mtcars

sort(Data_Cars$cyl)

Resultaat:

 [1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8 8

Uit bovenstaande voorbeelden zien we dat de meeste auto's 4 en 8 cilinders hebben.


De gegevens analyseren

Nu we wat informatie over de dataset hebben, kunnen we deze gaan analyseren met wat statistische cijfers.

We kunnen de summary()functie bijvoorbeeld gebruiken om een ​​statistisch overzicht van de gegevens te krijgen:

Voorbeeld

Data_Cars <- mtcars

summary(Data_Cars)

Maak je geen zorgen als je de uitvoernummers niet begrijpt. Je zult ze snel onder de knie krijgen.

De summary()functie retourneert zes statistische getallen voor elke variabele:

  • min
  • Eerste kwantiel (percentiel)
  • Mediaan
  • Gemeen
  • Derde kwantiel (percentiel)
  • Max

We zullen ze allemaal behandelen, samen met andere statistische cijfers in de volgende hoofdstukken.